Meta开源小语言模型MobileLLM家族:适用智能手机

IT之家 2024-11-08 17:16:24

IT之家11月8日消息,Meta于上周发布新闻稿,宣布正式开源可在智能手机上运行的小语言模型MobileLLM家族,并同时为系列模型新增600M、1B和1.5B三种不同参数版本,IT之家附项目GitHub项目页如下(点此访问)。

Meta研究人员表示,MobileLLM模型家族专为智能手机打造,该模型号称采用了精简架构,并引入了“SwiGLU激活函数”、“分组查询注意力(grouped-queryattention)”机制,能够在兼顾效率与表现成果。

此外,MobileLLM模型据称训练速度较快,Meta研究人员声称他们在32颗NvidiaA10080GGPU的服务器环境下,以1万亿词(tokens)训练不同参数量的MobileLLM模型时,1.5B版本只需18天,而125M版本仅需3天。

而从结果来看,MobileLLM125M和350M两款模型在零样本常识理解任务中的准确率比Cerebras、OPT、BLOOM等StateoftheArt(SOTA)模型分别高出2.7%和4.3%。

Meta研究人员同时将MobileLLM-1.5B与业界其他参数量更大的模型进行比较,在结果测试方面据称领先GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen1.5-1.8B等模型。

0 阅读:1