極客網(wǎng)·極客觀察(朱飛)9月2日 當前,傳統(tǒng)高性能計算架構(gòu)難以適配AI for Science等前沿領(lǐng)域的復雜任務,使得高性能計算+AI融合,又稱為“超智融合”,成為計算領(lǐng)域的重要發(fā)展趨勢。在超智融合的發(fā)展路徑中,其中一條是對現(xiàn)有高性能計算軟硬平臺進行創(chuàng)新,通過體系結(jié)構(gòu)與軟件協(xié)同創(chuàng)新及優(yōu)化,高效支持AI負載,形成支撐未來科學發(fā)現(xiàn)一種全新的計算范式。
近日,清程極智通過其自研的大模型推理引擎進一步激發(fā)鯤鵬高性能計算平臺極致性能,大幅優(yōu)化提升DeepSeek推理性能,展示了超智融合在這條路徑上的最新突破。
軟件創(chuàng)新,設計高效超智融合軟件系統(tǒng)
2023年成立的清程極智是一家聚焦智能算力系統(tǒng)軟件的清華系創(chuàng)新企業(yè),開發(fā)了“八卦爐”(Bagualu)大模型訓練系統(tǒng)、“赤兔”(Chitu)大模型推理引擎及“IntelliGen”智能編譯器三大產(chǎn)品。針對超智融合需求, 清程極智基于高性能計算平臺進行軟件系統(tǒng)創(chuàng)新,以高效支持AI任務。
清程極智CEO湯雄超分享到,“隨著AI for Science等技術(shù)的發(fā)展,超智融合將成為未來關(guān)鍵的算力形態(tài)。我們認為超智融合平臺將具備獨特的市場競爭力。當前高性能計算中心在完成核心科學計算任務后,往往存在算力資源的閑置窗口期。若能高效整合這些碎片化算力資源,不僅能夠提升基礎設施的利用率,還將為計算市場帶來更具性價比的創(chuàng)新服務模式?!?/p>
其中“赤兔”專注于應用不同體系結(jié)構(gòu)芯片推理部署大模型,可快速接入DeepSeek、Qwen、GLM等多種模型,并支持在多種芯片間平滑切換,實現(xiàn)超智融合異構(gòu)集群的推理部署。
湯雄超表示,“從技術(shù)實現(xiàn)角度,核心在于結(jié)合硬件特性構(gòu)建高效的超智融合軟件架構(gòu),釋放高性能計算算力潛能,優(yōu)化大模型訓練推理的負載處理能力,并有效響應各類復雜計算需求?!?/p>
軟硬協(xié)同,釋放超智融合算力平臺潛能
湯雄超表示,“得益于鯤鵬體系結(jié)構(gòu)創(chuàng)新,同時高性能計算和AI兩類計算范式在核心挑戰(zhàn)與解決思路上存在共通性,例如芯片層面都通過算子優(yōu)化、計算與訪存重疊、流水線并行及多級并行等技術(shù)手段,以充分釋放硬件性能,我們認為超智融合是一個非常自然的事情?!苯Y(jié)合鯤鵬平臺,清程極智“赤兔”主要從兩個技術(shù)維度發(fā)力提供加速。
一是面向鯤鵬處理器的算子性能優(yōu)化技術(shù),鯤鵬以多核+SIMD的方式運行,并集成了矩陣和矢量運算單元、高速存儲,能同時滿足高性能計算和智算需求,另外開放程度也比較高,可以做到非常精細的指令序列控制,如此便可以去做一些非常細致的計算仿存掩蓋、異步流水線調(diào)度等技術(shù)優(yōu)化。
二是面向鯤鵬集群的多層次大模型推理并行計算優(yōu)化技術(shù)。鯤鵬采用多NUMA架構(gòu),集成片上內(nèi)存,結(jié)合高性能RDMA網(wǎng)絡互聯(lián)能力,非常貼合DeepSeek大EP架構(gòu),天然親和集群擴展。為不同優(yōu)化目標匹配張量并行(TP)、流水線并行(PP)、專家并行(EP)、數(shù)據(jù)并行(DP)等不同并行方式及其組合,以多層次的運行策略實現(xiàn)高性能的大模型推理。
具體來看,首先,在鯤鵬平臺實現(xiàn)高性能矩陣乘。清程極智結(jié)合鯤鵬NUMA特定,通過配置不同的參數(shù)運行矩陣乘,針對性優(yōu)化不同計算環(huán)節(jié)的多種矩陣乘算子。實驗證明在矩陣形狀較好時,算子性能可達到理論峰值的35%。
其次,在鯤鵬平臺實現(xiàn)高性能CoreMLA。清程極智通過量化鯤鵬平臺CoreMLA在不同參數(shù)下的性能指標,實現(xiàn)了矩陣吸收的CoreMLA訪存量與batch_size正相關(guān),得出在在鯤鵬平臺上,應當使用較小的張量并行配置執(zhí)行CoreMLA,才能更好地提升效率。
最后,在鯤鵬平臺引入MTP加速技術(shù)。在上述基礎優(yōu)化之上,清程極智在鯤鵬平臺引入DeepSeek推理優(yōu)化也在用的MTP(多tokens/s預測)技術(shù),顯著提升單個請求的輸出速率,并探究在不同規(guī)模并發(fā)場景下MTP加速比與預測深度的相關(guān)性,不斷追求最佳效果。
打破界限,引領(lǐng)超智融合新發(fā)展
立足以上鯤鵬多樣性算力體系結(jié)構(gòu)創(chuàng)新和清程極智超智融合AI推理加速技術(shù),清程極智基于鯤鵬平臺實現(xiàn)DeepSeek推理部署,推理性能可隨集群規(guī)模的擴大而持續(xù)提升。具體測試中,硬件部分采用32個鯤鵬CPU集群系統(tǒng)“跑”DeepSeek-V3/R1-671B模型,取batch_size=2048時的輸出吞吐與80張主流GPU集群相當。意味著鯤鵬可支撐高性能計算+AI工作負載,同時兼具性能和經(jīng)濟性。
而談及下一步的工作計劃,湯雄超表示一方面會探索更大的集群,攻堅更復雜的并行計算模式;另一方面會追求更低成本,嘗試更小規(guī)模集群的部署方案,在珍貴的高速存儲外提升海量CPU主存的利用率,進一步降低CPU的集群門檻;同時要讓產(chǎn)品更易使用,將上述優(yōu)化技術(shù)集成到“赤兔”里實現(xiàn)開箱即用,同時持續(xù)接入更多開源模型,并支持更多模型精度。
展望未來,從技術(shù)層面看,清程極智這種基于鯤鵬平臺為大模型推理加速的超智融合創(chuàng)新范式,引領(lǐng)計算技術(shù)邁入一個深度融合的全新發(fā)展階段。而在應用層面,這種融合不僅能夠讓不同行業(yè)的復雜業(yè)務場景得到更精準、更高效的計算支持,也將“點燃”AI for Science加速科研成果轉(zhuǎn)化,推動科研突破和產(chǎn)業(yè)數(shù)智化升級!
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。