晴數(shù)智慧推出MagicData-CLAM高質量SFT數(shù)據(jù)集,助力大模型實現(xiàn)更優(yōu)效果
兩周前Meta發(fā)布了開源大模型LLaMA 2。與上一代LLaMA相比,LLaMA 2有著性能接近GPT-3.5、允許商用、安全性更強,巨頭聯(lián)合生態(tài)開源的特點。LLaMA 2的開源使得大模型的競爭來到新的起點,市場格局面臨重塑。如果開源大模型使得企業(yè)不再制肘于自研大模型,那么基于大模型的生成式AI決勝關鍵將只有一個答案:數(shù)據(jù)。
數(shù)據(jù)質量是AI大模型落地的決勝關鍵
在模型相對固定的前提下,通過提升數(shù)據(jù)的質量和數(shù)量來提升整個模型的訓練效果的模型優(yōu)化方式被越來越多業(yè)內人士所認同。人工智能領域的權威學者吳恩達發(fā)起了“以數(shù)據(jù)為中心的 AI”運動就是主張模型不變,通過改進數(shù)據(jù)集質量提升模型效果。在當前算力和算法難以拉開巨大差距的情況下,突破數(shù)據(jù)瓶頸、獲取更多高質量的數(shù)據(jù)成為大模型落地的關鍵。
來源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023
晴數(shù)智慧推出高質量MagicData-CLAM數(shù)據(jù)集
在中文高質量數(shù)據(jù)集稀缺的情境下,晴數(shù)智慧基于近20年在對話數(shù)據(jù)的專業(yè)積累,在國內首次推出了面向大模型SFT訓練的高質量數(shù)據(jù)集:MagicData-CLAM數(shù)據(jù)集。
該數(shù)據(jù)集包含一共5萬條Prompt和對應回答,數(shù)據(jù)的分布由晴數(shù)智慧數(shù)據(jù)專家團隊設計完成,覆蓋領域多樣性、任務多樣性,以及表達多樣性。數(shù)據(jù)版權完整清晰。
MagicData-CLAM幫助實現(xiàn)更優(yōu)的大模型微調結果
為了更好地評估MagicData-CLAM的價值,晴數(shù)智慧研發(fā)團隊進行了一組實驗:基于chinese-llama-2-7b模型(該模型由開源項目 Linly 發(fā)布,是基于 LLaMA2-7b訓練的中文底座模型),團隊分別使用約等量的MagicData-CLAM數(shù)據(jù)集和基于斯坦福Alpaca數(shù)據(jù)處理的高質量中文數(shù)據(jù)集進行微調,得到Chinese-llama2-CLAM(簡稱CLAM)大模型和Chinese-llama2-alpaca(簡稱Alpaca)模型。我們對這兩個模型以及基礎chinese-llama-2-7b模型(基線模型)的輸出結果進行評估。結果顯示,從大模型的表達自然度上,結果輸出結構化上,CLAM顯著更優(yōu);在輸出知識的正確性上CLAM也表現(xiàn)不錯。
測評樣例如下:
對比模型輸出的結果,我們發(fā)現(xiàn):
CLAM模型相比Alpaca模型,對中文的理解更好,結果輸出上結構化更清晰。
Alpaca模型似乎容易先續(xù)寫幾句任務然后才開始進行回答,交互自然度稍有欠缺,而CLAM模型幾乎未出現(xiàn)這種情況。
Alpaca模型偶爾出現(xiàn)幻覺,如它的輸出結果有如此描述:經(jīng)典的歌劇作品包括《托斯卡》、《費加羅的婚禮》、《魔笛》等,京劇作品如《茶館》、《空城計》、《雷雨》等。(《茶館》與《雷雨》并非京劇作品。)而在相關知識輸出中,CLAM模型較好地理解了歌劇,京劇等的區(qū)別,并輸出更合理的知識。
此實驗結果說明,調優(yōu)數(shù)據(jù)集對基線模型的輸出結果有明顯影響,使用更高質量的數(shù)據(jù)集,模型能輸出更優(yōu)的結果;Alpaca數(shù)據(jù)集是斯坦福大學研究團隊發(fā)布的高質量數(shù)據(jù)集代表,而CLAM模型的輸出結果優(yōu)于Alpaca中文版模型,說明晴數(shù)智慧自研的MagicData-CLAM數(shù)據(jù)集是優(yōu)質的中文高質量數(shù)據(jù)集。
一場不同于過去的新的競爭正在生成式人工智能領域展開,高質量數(shù)據(jù)在其中將成為越來越關鍵的因素。MagicData-CLAM數(shù)據(jù)集作為晴數(shù)智慧在國內首發(fā)的合規(guī)可商用高質量SFT數(shù)據(jù)集,希望能幫助國內大模型應用研發(fā)伙伴先人一步,占領制勝先機。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )