2025年8月12日,2025金融AI推理應用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團CEO 曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產品線總裁周躍峰博士發(fā)布AI推理創(chuàng)新技術——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。同時,華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術試點應用,并聯(lián)合發(fā)布智慧金融AI推理加速方案應用成果。
當前,人工智能已步入發(fā)展深水區(qū),AI推理正成為下一個爆發(fā)式增長的關鍵階段,推理體驗和推理成本成為了衡量模型價值的黃金標尺。周躍峰在論壇上強調:“AI時代,模型訓練、推理效率與體驗的量綱都以Token數(shù)為表征,Token經濟已經到來”。為保障流暢的推理體驗,企業(yè)需持續(xù)加大算力投入,但如何在推理效率與成本之間找到最佳平衡點,成為了全行業(yè)亟待解決的重要課題。
為此,華為重磅推出UCM推理記憶數(shù)據(jù)管理器,包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協(xié)同,實現(xiàn)AI推理“更優(yōu)體驗、更低成本”:
· 更優(yōu)的推理體驗:依托UCM層級化自適應的全局前綴緩存技術,系統(tǒng)能直接調用KV緩存數(shù)據(jù),避免重復計算,使首Token時延最大降低90%。同時,UCM將超長序列Cache分層卸載至外置專業(yè)存儲,通過算法創(chuàng)新突破模型和資源限制,實現(xiàn)推理上下文窗口10倍級擴展,滿足長文本處理需求。
· 更低的推理成本:UCM具備智能分級緩存能力,可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質中實現(xiàn)按需流動;同時融合多種稀疏注意力算法,實現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理token數(shù))提升2-22倍,顯著降低每Token推理成本,為企業(yè)減負增效。
在與中國銀聯(lián)的聯(lián)合創(chuàng)新技術試點中,UCM的技術價值得到充分驗證。在中國銀聯(lián)“客戶之聲”業(yè)務場景下,借助UCM技術及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準識別客戶高頻問題,促進服務質量提升。未來,中國銀聯(lián)將依托國家人工智能應用中試基地,聯(lián)合華為等生態(tài)伙伴共建“AI+金融”示范應用,推動技術成果從“實驗室驗證”走向“規(guī)?;瘧谩?。
論壇現(xiàn)場,華為正式公布了UCM開源計劃。UCM通過開放統(tǒng)一的南北向接口,可適配多類型推理引擎框架、算力及存儲系統(tǒng)。今年9月,UCM將正式開源,后續(xù)逐步貢獻給業(yè)界主流推理引擎社區(qū),攜手全產業(yè)共同推動AI推理生態(tài)的繁榮發(fā)展。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )