Kimi K2開(kāi)源背后:萬(wàn)億參數(shù)模型的研發(fā)內(nèi)幕
7月14日,國(guó)內(nèi)大模型獨(dú)角獸月之暗面正式發(fā)布并開(kāi)源了其最新一代MoE架構(gòu)基礎(chǔ)模型Kimi K2。這一總參數(shù)量達(dá)到1萬(wàn)億(1T)的模型迅速引發(fā)行業(yè)熱議。多位參與研發(fā)的工程師在知乎展開(kāi)“親自答”,從技術(shù)架構(gòu)、訓(xùn)練策略到開(kāi)源決策,全面揭示了K2的研發(fā)歷程。
架構(gòu)設(shè)計(jì):平衡性能與效率
作為月之暗面Infra側(cè)的推理研發(fā)人員,劉少偉在知乎上詳細(xì)解析了K2的模型結(jié)構(gòu)設(shè)計(jì)。他指出,K2基于DeepSeek V3的框架,但在參數(shù)選擇上進(jìn)行了優(yōu)化,目標(biāo)是在訓(xùn)練和推理成本與V3相當(dāng)?shù)那疤嵯?,?shí)現(xiàn)更低的損失值(loss)。K2的總參數(shù)量雖增至1.5倍,但通過(guò)優(yōu)化通信效率,其prefill(預(yù)填充)和decode(解碼)的理論耗時(shí)反而更低。這一設(shè)計(jì)體現(xiàn)了團(tuán)隊(duì)在模型規(guī)模與計(jì)算效率之間的精細(xì)權(quán)衡。
訓(xùn)練策略:自動(dòng)化數(shù)據(jù)工廠與Agent能力
研究員Flood Sung則重點(diǎn)分享了K2的訓(xùn)練策略。他提到,K2的一個(gè)關(guān)鍵突破是MuonClip技術(shù)帶來(lái)的顯著loss下降曲線。此外,團(tuán)隊(duì)為提升模型的通用Agent能力,構(gòu)建了一套全自動(dòng)化的Agent合成數(shù)據(jù)生產(chǎn)線。這一系統(tǒng)通過(guò)模擬和過(guò)濾,高效生成高質(zhì)量的Agent軌跡數(shù)據(jù)。Flood Sung借用老子的“一生二,二生三,三生萬(wàn)物”來(lái)形容這一數(shù)據(jù)生產(chǎn)流程的自我擴(kuò)展能力。
開(kāi)源決策:社區(qū)協(xié)作與技術(shù)生態(tài)
關(guān)于K2的開(kāi)源,研發(fā)人員Justin Wong解釋稱,開(kāi)源的核心目的是借助社區(qū)力量完善技術(shù)生態(tài)。開(kāi)源不到24小時(shí),社區(qū)便涌現(xiàn)出K2的MLX實(shí)現(xiàn)、4bit量化等優(yōu)化,這些成果單靠團(tuán)隊(duì)自身難以快速實(shí)現(xiàn)。研究員Dylan則坦言,K2作為新發(fā)布的模型,仍存在許多不足,尤其是在與成熟的前沿模型對(duì)比時(shí)表現(xiàn)明顯。他表示,團(tuán)隊(duì)將在后續(xù)迭代中持續(xù)挖掘K2的潛力。
知乎成為技術(shù)分享新陣地
值得注意的是,月之暗面近年來(lái)多次選擇在知乎發(fā)布技術(shù)細(xì)節(jié)。6月,其Kimi-researcher Agent產(chǎn)品的研發(fā)人員也曾通過(guò)“親自答”解讀技術(shù)亮點(diǎn)。更早之前,開(kāi)源MoBA框架的研發(fā)人員鹿恩哲和蘇劍林也在知乎分享了稀疏注意力框架的設(shè)計(jì)思路。這種開(kāi)放的技術(shù)交流方式,不僅增強(qiáng)了行業(yè)透明度,也推動(dòng)了相關(guān)技術(shù)的快速迭代。
結(jié)語(yǔ)
Kimi K2的開(kāi)源標(biāo)志著國(guó)產(chǎn)大模型在規(guī)模與技術(shù)上邁入新階段。從架構(gòu)優(yōu)化到訓(xùn)練策略,再到開(kāi)源生態(tài)的構(gòu)建,月之暗面展示了一條兼顧性能與效率的研發(fā)路徑。然而,正如團(tuán)隊(duì)所言,K2仍處于早期階段,其真正的潛力有待后續(xù)版本釋放。對(duì)于行業(yè)而言,這種開(kāi)放、協(xié)作的研發(fā)模式,或許將成為未來(lái)大模型發(fā)展的重要方向。
- 印度特斯拉Model Y售價(jià)50萬(wàn) 為何比中國(guó)貴一倍?
- SpaceX星艦計(jì)劃涉足太空制藥 成本與可行性引質(zhì)疑
- 小鵬汽車(chē)員工數(shù)將破3萬(wàn) 年內(nèi)新增8000崗位
- 泡泡瑪特業(yè)績(jī)暴增股價(jià)反跳水 市場(chǎng)為何不買(mǎi)賬?
- 亞馬遜云科技發(fā)布AI開(kāi)發(fā)工具Kiro:三步完成應(yīng)用構(gòu)建
- 京東外賣(mài)豪擲15萬(wàn)定制車(chē) 騎手裝備升級(jí)引熱議
- 黃仁勛談中美AI合作:開(kāi)源是橋梁而非戰(zhàn)場(chǎng)
- 大眾高管批中國(guó)車(chē)市價(jià)格戰(zhàn):殺價(jià)搶市反傷品牌
- 嵐圖遭有組織抹黑 線索直指某品牌代理商
- Kimi API遇性能瓶頸 月之暗面稱模型大流量高致延遲
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。