原標(biāo)題:傳統(tǒng)HPC擁抱大數(shù)據(jù)與人工智能?沒(méi)那么難也沒(méi)那么貴
人工智能、大數(shù)據(jù)時(shí)代的到來(lái),給企業(yè)發(fā)展帶來(lái)新機(jī)遇的同時(shí),也帶來(lái)了新的煩惱,不菲的投入讓不少企業(yè)只能望人工智能、大數(shù)據(jù)卻步。
擁抱人工智能的苦惱
下面是一個(gè)真實(shí)的企業(yè)場(chǎng)景:由于業(yè)務(wù)相關(guān),這家企業(yè)很早就建設(shè)了高性能計(jì)算集群,不過(guò)利用率一直也不算高。隨著人工智能、大數(shù)據(jù)時(shí)代的到來(lái),這家企業(yè)想著如果能把原有的存量資源用起來(lái),豈不是兩全其美,但當(dāng)真正想把這一設(shè)想落地的時(shí)候,發(fā)現(xiàn)挑戰(zhàn)還是挺多的。
這樣的苦惱相信不少企業(yè)都有,一邊是現(xiàn)存高性能計(jì)算集群大量閑置的計(jì)算、存儲(chǔ)資源,一邊是上馬人工智能、大數(shù)據(jù)等前沿項(xiàng)目,居高不下的成本。
這樣的矛盾有辦法解決嗎?
答案當(dāng)然是有的。英特爾高性能計(jì)算融合平臺(tái)就致力于用同一通用平臺(tái),同時(shí)支持仿真和建模等傳統(tǒng)高性能計(jì)算應(yīng)用,以及人工智能與數(shù)據(jù)分析等新型應(yīng)用。目前,該平臺(tái)已經(jīng)有了不少落地實(shí)踐。
英特爾在其中究竟做了些什么?我們不妨先看看傳統(tǒng)的高性能計(jì)算集群建設(shè)模式和現(xiàn)在有什么不一樣?參見(jiàn)下圖。
如圖左,過(guò)去高性能計(jì)算集群建設(shè)是跟著應(yīng)用走,每上一個(gè)新項(xiàng)目,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、資源管理器等軟硬件就建設(shè)一次。由此帶來(lái)的問(wèn)題很多,數(shù)據(jù)孤島、資源利用率低……現(xiàn)在呢?如圖右,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源池化,統(tǒng)一資源管理器承載各種不同的應(yīng)用。
簡(jiǎn)單類比,從圖左到圖右就是從傳統(tǒng)IT到云的轉(zhuǎn)變。從左到右需要做的工作也很清晰,三層:資源池化、資源管理器統(tǒng)一化、應(yīng)用優(yōu)化。一層一層展開(kāi):
資源層,打通
計(jì)算、存儲(chǔ)、網(wǎng)絡(luò),毫無(wú)疑問(wèn),難點(diǎn)在存儲(chǔ),因?yàn)槿斯ぶ悄堋⒋髷?shù)據(jù)分析的核心其實(shí)是數(shù)據(jù)的存儲(chǔ)、調(diào)用。
為此,英特爾使用Alluxio進(jìn)行存儲(chǔ)抽象化。Alluxio 是加州大學(xué)伯克利分校開(kāi)發(fā)的一款開(kāi)源軟件,可為各類存儲(chǔ)上的多個(gè)對(duì)象和文件存儲(chǔ)區(qū)中的數(shù)據(jù)創(chuàng)建單點(diǎn)訪問(wèn)。
具體而言,Alluxio可將任意完全不同的數(shù)據(jù)存儲(chǔ)區(qū)集合作為可通過(guò)單一標(biāo)準(zhǔn)接口訪問(wèn)的單一虛擬數(shù)據(jù)源提供給應(yīng)用。這樣,用戶就能在應(yīng)用和數(shù)據(jù)之間建立“任意對(duì)任意”的聯(lián)系,且無(wú)需考慮這些資源的物理位置或格式化方式。
換句話說(shuō),對(duì)于用戶來(lái)說(shuō),通過(guò)使用Alluxio,應(yīng)用無(wú)需進(jìn)行復(fù)雜且耗時(shí)的配置,即可訪問(wèn)現(xiàn)有數(shù)據(jù),省時(shí)省力。另外,從軟件開(kāi)發(fā)的角度來(lái)看,也省去了很多代碼開(kāi)發(fā)工作。
事實(shí)上,為了保證存儲(chǔ)的性能和效率,Alluxio做了很多針對(duì)性改進(jìn)。
比如,爭(zhēng)奪緩存資源是分布式應(yīng)用最常見(jiàn)的挑戰(zhàn)之一,這會(huì)導(dǎo)致應(yīng)用必須從磁盤(pán)而非緩存訪問(wèn)數(shù)據(jù),從而降低性能。而Alluxio可提供分布式共享緩存,通過(guò)支持應(yīng)用將共享訪問(wèn)層中經(jīng)常訪問(wèn)的數(shù)據(jù)緩存到系統(tǒng)內(nèi)存,來(lái)幫助克服性能缺陷。
很顯然,使用 Alluxio進(jìn)行存儲(chǔ)抽象化相當(dāng)于另一種方式的存儲(chǔ)資源池化,能夠在盡可能利用現(xiàn)有資源的前提下,幫助企業(yè)過(guò)渡到一組較小的、為融合平臺(tái)提供服務(wù)的通用數(shù)據(jù)存儲(chǔ)區(qū)。
而在計(jì)算層面和網(wǎng)絡(luò)層面,業(yè)界已經(jīng)有很多成熟的解決方案,這里不一一而足。值得一提的是,為了促進(jìn)高性能計(jì)算和人工智能的融合,英特爾在硬件研發(fā)方面也做了很多調(diào)整,基于全新英特爾技術(shù)創(chuàng)新,包括英特爾至強(qiáng)可擴(kuò)展處理器、英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存等,用戶可以有力推進(jìn)二者的融合。
比如,實(shí)測(cè)數(shù)據(jù)顯示,與三年機(jī)齡的系統(tǒng)相比,搭載第二代英特爾至強(qiáng)可擴(kuò)展處理器的平臺(tái)在高性能計(jì)算CPU基準(zhǔn)測(cè)試中的平均性能提高多達(dá)3.7倍。此外,與競(jìng)爭(zhēng)處理器相比,在 LINPACK CPU基準(zhǔn)測(cè)試中可將性能提升高達(dá)5.8倍。在人工智能推測(cè)方面,與競(jìng)爭(zhēng)處理器相比,集成了英特爾深度學(xué)習(xí)加速的第二代英特爾至強(qiáng)可擴(kuò)展處理器可使圖像分類推理性能提升高達(dá)25倍。
資源管理器層,統(tǒng)一
由于每種工作負(fù)載的資源管理器在設(shè)計(jì)之初并沒(méi)有考慮彼此之間的互操作性,所以沒(méi)有一體適用的方案,為此英特爾正在研究多種解決方案,以對(duì)客戶現(xiàn)有環(huán)境進(jìn)行改造。這里介紹兩個(gè)方案。
一個(gè)是面向高性能計(jì)算批量調(diào)度程序的Magpie,架構(gòu)圖如下
Magpie是美國(guó)勞倫斯利物莫國(guó)家實(shí)驗(yàn)室的一個(gè)開(kāi)源項(xiàng)目, 目的就是在高性能計(jì)算環(huán)境中運(yùn)行TensorFlow,英特爾深度參與其中。應(yīng)該說(shuō),為了更好的支持該方案,英特爾做了很多工作來(lái)確保各種工作負(fù)載擁有出色的性能和穩(wěn)定性。
最終的成果是,保證在同一平臺(tái)獨(dú)立運(yùn)行Apache Spark的同時(shí),仿真和建模工作負(fù)載照舊,二者互不干擾。另外,使用Horovod Magpie提交人工智能或數(shù)據(jù)分析工作負(fù)載的作業(yè),幾乎沒(méi)有額外開(kāi)銷,且不會(huì)造成任何明顯的性能降級(jí)。
另一個(gè)方案是Univa Grid Engine和Resource Broker,架構(gòu)圖如下。
Univa Grid Engine是一個(gè)需要商業(yè)許可的資源管理器。不久前,該公司將Univa Universal Resource Broker開(kāi)源,用于管理和優(yōu)化分布式應(yīng)用、服務(wù)與大數(shù)據(jù)框架,其可以抽象化處理分布式數(shù)據(jù)中心資源,從而創(chuàng)建一個(gè)跨物理服務(wù)器、虛擬機(jī)、混合云和容器運(yùn)行的單一虛擬資源池。
除了傳統(tǒng)的仿真和建模,該方案允許用戶使用Univa Grid Engine擴(kuò)展集群,從而支持Apache Spark和TensorFlow等工作負(fù)載。
從本質(zhì)上說(shuō),該方案是把Universal Resource Broker作為適配器,從而將各種工作負(fù)載與Univa Grid Engine 集成在一起,而Universal ResourceBroker允許任何與Apache Mesos兼容的軟件在UnivaGrid Engine上運(yùn)行。
應(yīng)用層,優(yōu)化
英特爾深度參與人工智能、大數(shù)據(jù)的整個(gè)生態(tài)系統(tǒng)中,貢獻(xiàn)、優(yōu)化包括TensorFlow、MXNet 和Caffe等在內(nèi)的深度學(xué)習(xí)框架。
眾所周知,人工智能在今天的應(yīng)用已經(jīng)不局限于常見(jiàn)的圖像識(shí)別、語(yǔ)言翻譯、推薦引擎、生成式設(shè)計(jì)和生成式對(duì)抗網(wǎng)絡(luò),隨著技術(shù)的不斷下沉,欺詐檢測(cè)、地震關(guān)聯(lián)、安全、安保和預(yù)測(cè)性維護(hù)等場(chǎng)景與人工智能的關(guān)聯(lián)也越來(lái)越緊密。
針對(duì)這種情況,英特爾開(kāi)發(fā)了面向深度神經(jīng)網(wǎng)絡(luò)的英特爾數(shù)學(xué)核心函數(shù)庫(kù)(英特爾MKL-DNN) 。通過(guò)為在英特爾架構(gòu)上運(yùn)行訓(xùn)練和推理相關(guān)的資源密集型操作提供高度調(diào)優(yōu)的數(shù)學(xué)函數(shù),改進(jìn)人工智能框架在硬件上的橫向擴(kuò)展能力,優(yōu)化框架在高性能計(jì)算平臺(tái)的適用性。
另外,英特爾與谷歌建立了長(zhǎng)期合作關(guān)系,共同優(yōu)化TensorFlow。基于英特爾處理器部署英特爾MKL-DNN,能夠給性能帶來(lái)數(shù)量級(jí)的提升。
特別值得一提的是,用戶只需要使用英特爾MKL-DNN的設(shè)置來(lái)構(gòu)建TensorFlow即可,無(wú)需進(jìn)行任何軟件或配置更改即可利用這些優(yōu)化,十分簡(jiǎn)便。而且,這些優(yōu)化還在不斷進(jìn)行中。
此外,英特爾還參與了大量開(kāi)源項(xiàng)目的優(yōu)化建設(shè)。比如,英特爾目前正在為ApacheSpark 開(kāi)發(fā)功能,以便利用通過(guò)OpenFabrics接口提供消息傳遞的高性能結(jié)構(gòu)。
總結(jié)全文,人工智能、大數(shù)據(jù)……新技術(shù)催生新時(shí)代正在到來(lái),未來(lái)很美好,但挑戰(zhàn)也不小,有各種各樣的,本文講的主要是如何利舊。從中不難看出,英特爾絕不只是一家處理器公司,在底層,在大家看不到的地方,英特爾做了非常多的工作。有這方面訴求的企業(yè)不妨去找英特爾去深入了解一下,擁抱人工智能、大數(shù)據(jù)沒(méi)那么難、沒(méi)那么貴。
- 世間將再無(wú)松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來(lái)藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。