7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計算資源而設(shè)計的緊湊型語言模型家族。該系列包含三個版本,分別搭載了1.35億、3.6億及17億參數(shù),旨在以高效能應(yīng)對不同應(yīng)用場景。
據(jù)Hugging Face SmolLM項目的首席機器學習工程師Loubna Ben Allal介紹:“我們認識到,并非每項任務(wù)都需要龐大的模型來支撐,正如鉆孔無需重型破碎球一樣。專為特定任務(wù)定制的小型模型,同樣能夠勝任繁重的工作。”
尤為引人注目的是,即便是家族中最小的成員SmolLM-135M,在訓練數(shù)據(jù)相對有限的情況下,其性能仍超越了Meta的MobileLM-125M模型,展現(xiàn)出非凡的潛力。而SmolLM-360M則自豪地宣稱,在性能上已凌駕于所有參數(shù)少于5億的模型之上。至于旗艦產(chǎn)品SmolLM-1.7B,更是在一系列基準測試中力壓群雄,包括微軟的Phi-1.5和Meta的MobileLM-1.5B等強勁對手。
Hugging Face不僅在技術(shù)上追求卓越,更在開放共享上樹立了典范。公司決定將SmolLM的整個開發(fā)流程,從數(shù)據(jù)管理到訓練步驟,全部對外開源。這一舉措不僅彰顯了公司對開源文化的堅定支持,也體現(xiàn)了對可重復(fù)研究的高度重視,為行業(yè)內(nèi)的科研人員提供了寶貴的資源。
SmolLM系列的卓越表現(xiàn),離不開其背后精心策劃的高質(zhì)量訓練數(shù)據(jù)。這些模型依托于Cosmo語料庫構(gòu)建,該語料庫融合了Cosmopedia v2(包含合成教科書與故事)、Python Edu(教育導(dǎo)向的Python示例)以及FineWeb Edu(精選教育網(wǎng)絡(luò)內(nèi)容)等多維度資源,確保了模型學習內(nèi)容的豐富性與準確性。
Loubna Ben Allal強調(diào):“SmolLM系列的成功,是對數(shù)據(jù)質(zhì)量重要性的有力證明。我們創(chuàng)新性地結(jié)合了網(wǎng)絡(luò)數(shù)據(jù)與合成數(shù)據(jù),通過精心策劃,打造出了這些性能卓越的小型模型。”這一成就不僅為語言模型領(lǐng)域注入了新的活力,也為未來智能應(yīng)用的發(fā)展開辟了更加廣闊的道路。
-
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
300瀏覽量
19677 -
語言模型
+關(guān)注
關(guān)注
0文章
538瀏覽量
10341
發(fā)布評論請先 登錄
相關(guān)推薦
評論