7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語言模型家族。該系列包含三個(gè)版本,分別搭載了1.35億、3.6億及17億參數(shù),旨在以高效能應(yīng)對(duì)不同應(yīng)用場景。
據(jù)Hugging Face SmolLM項(xiàng)目的首席機(jī)器學(xué)習(xí)工程師Loubna Ben Allal介紹:“我們認(rèn)識(shí)到,并非每項(xiàng)任務(wù)都需要龐大的模型來支撐,正如鉆孔無需重型破碎球一樣。專為特定任務(wù)定制的小型模型,同樣能夠勝任繁重的工作?!?/p>
尤為引人注目的是,即便是家族中最小的成員SmolLM-135M,在訓(xùn)練數(shù)據(jù)相對(duì)有限的情況下,其性能仍超越了Meta的MobileLM-125M模型,展現(xiàn)出非凡的潛力。而SmolLM-360M則自豪地宣稱,在性能上已凌駕于所有參數(shù)少于5億的模型之上。至于旗艦產(chǎn)品SmolLM-1.7B,更是在一系列基準(zhǔn)測試中力壓群雄,包括微軟的Phi-1.5和Meta的MobileLM-1.5B等強(qiáng)勁對(duì)手。
Hugging Face不僅在技術(shù)上追求卓越,更在開放共享上樹立了典范。公司決定將SmolLM的整個(gè)開發(fā)流程,從數(shù)據(jù)管理到訓(xùn)練步驟,全部對(duì)外開源。這一舉措不僅彰顯了公司對(duì)開源文化的堅(jiān)定支持,也體現(xiàn)了對(duì)可重復(fù)研究的高度重視,為行業(yè)內(nèi)的科研人員提供了寶貴的資源。
SmolLM系列的卓越表現(xiàn),離不開其背后精心策劃的高質(zhì)量訓(xùn)練數(shù)據(jù)。這些模型依托于Cosmo語料庫構(gòu)建,該語料庫融合了Cosmopedia v2(包含合成教科書與故事)、Python Edu(教育導(dǎo)向的Python示例)以及FineWeb Edu(精選教育網(wǎng)絡(luò)內(nèi)容)等多維度資源,確保了模型學(xué)習(xí)內(nèi)容的豐富性與準(zhǔn)確性。
Loubna Ben Allal強(qiáng)調(diào):“SmolLM系列的成功,是對(duì)數(shù)據(jù)質(zhì)量重要性的有力證明。我們創(chuàng)新性地結(jié)合了網(wǎng)絡(luò)數(shù)據(jù)與合成數(shù)據(jù),通過精心策劃,打造出了這些性能卓越的小型模型?!边@一成就不僅為語言模型領(lǐng)域注入了新的活力,也為未來智能應(yīng)用的發(fā)展開辟了更加廣闊的道路。
-
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
300瀏覽量
19665 -
語言模型
+關(guān)注
關(guān)注
0文章
538瀏覽量
10339
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論