千亿参数AI模型Yi-Large来了!李开复:要发展普惠型、全球化大模型

通信什么咬一口 2024-05-14 20:06:37

(计育青/文)如今各行各业都对AI大模型非常关注,期待着越来越多好用易用、低成本的AI应用能够改变我们的工作和生活。近日,零一万物公司发布了多款AI模型,以其突出的表现吸引了业界的广泛关注。

零一万物此次发布了具有千亿参数规模的闭源模型Yi-Large,在斯坦福最新的AlpacaEval 2.0全球大模型排行榜上赢率名列第一。零一万物还推出了多款参数规模较小的开源模型,这些模型在多种第三方测试中都做到了同等级别模型SOTA性能最佳。零一万物CEO李开复表示,零一万物的目标是打造普惠型、全球化的AI大模型,让人人都能从中受益。

Yi-Large跻身全球SOTA顶级大模型行列

2023年11月,零一万物曾发布了Yi-34B大模型,虽然参数规模并不大,但评测结果却超越了Llama2-70B、Falcon-180B等大规模模型,成为当时全球最强的开源基础模型之一。时隔半年,零一万物又推出了千亿参数规模的Yi-Large,性能表现更是经验。

据李开复介绍,第三方权威评测结果表明,零一万物Yi-Large的中英文双语表现都非常出色。在最新的斯坦福AlpacaEval 2.0榜单上,Yi-Large模型的英语能力主要指标“控制回复的长度”名列世界第二,仅次于GPT-4 Turbo。在此之前,国内大模型仅有零一万物和Qwen曾经登上此榜单的前20名。在中文能力方面,SuperCLUE发布的四月评测报告中,Yi-Large位列国产大模型之首,而且综合中英双语能力都表现优异。在更全面的综合评测中,Yi-Large有多数指标超越了GPT4、Claude3、Google Gemini 1.5等同级模型,在通用能力、代码生成、数学推理、指令遵循等方面都位居领先,稳列全球第一梯队。

李开复表示,一系列权威测评表明,Yi-Large是当前可用的最好的AI大模型,不过零一万物仍在继续创新,正在训练规模更大的新模型Yi-XLarge。Yi-XLarge将是一种混合专家大模型(MoE),虽然尚未完成最终训练,但是在一些权威评测中仍然做到了与Claude-3-Opus、GPT4-0409最新旗舰级模型互有胜负,非常值得期待。

Yi-1.5开源大模型实现普惠式服务

Yi-Large是面向商用市场的闭源大模型,不过零一万物此次也带来了新升级的开源系列模型Yi-1.5,包括34B、9B、6B 三个不同规模的版本和Yi-1.5-Chat微调模型。测评结果表明,Yi-1.5系列模型在数学推理、代码能力、指令遵循等方面表现很突出,远胜同参数规模的其它模型,也优于近期发布的Llama-3-8B-Instruct模型。

李开复表示,很多学生、创业者、老师、科研人员、公益组织都需要学习、探索和使用大模型,但是可能无法承担GPT-4、Yi-Large等商业闭源大模型的成本,因此推出开源的AI大模型非常重要。零一万物的策略是以开源模型构建生态、提供普惠式服务,吸引科研院校、学生、开发者、创业者在此基础上开展教学和创新,丰富生态、拓展应用;同时,以闭源模型展开前沿探索,服务对先进AI大模型有迫切需求的前沿企业。开源闭源双轨体系构成了良好的生态环境,加快AI技术和应用的迭代进步。

为帮助业界快速接入全球领先的AI大模型,零一万物此次不仅发布了闭源、开源的系列模型,还推出了面向个人用户的“万知”服务、赋能行业伙伴的“API 开放平台”。李开复表示,使用“万知”服务很方便,一是在微信上搜索“万知”小程序,二是登录wanzhi.com。“万知”的作用不仅仅是一个对话工具,它也可以分析海量数据,处理文字、图表等信息,自动生成PPT等文档,成为一种高效的工作助手、生产力工具。零一万物的“API 开放平台”面向商用市场,不过设计非常周到,既有调用大规模AI模型的Yi-Large-RAG API和Yi-Large-Turbo API,也有调用中小规模AI模型的Yi-Medium API、Yi-Vision API,以及调用超小规模模型的Yi-Spark API,成本从高到低,客户可以各取所需。

“零一万物API的特色是既追求最高的性能,又追求很好的性价比。”李开复说。

发展AI大模型也要讲求成本收益

人们通常认为,AI大模型就是要靠越来越复杂的算法、越来越强的算力基础设施来支撑,这导致每一家AI模型开发企业都在持续投入巨资建设算力,而收益却远远跟不上。李开复认为,AI大模型的竞争不是一场短程赛跑,更像是一场比拼耐力的长跑,每一个身处其间的选手都应该关注投资和收益,设法降低训练成本、用户调用API的价格,并且根据实际应用需求,务实地压缩模型规模。

零一万物有自己的独特优势,比如全球化布局,模型与算力架构综合研发能力等。零一万物是一家面对全世界开展服务的AI企业,在美欧等市场都开展业务,因此可以发展更快的国外经验引入国内市场,包括成本优化、模型规模调整、市场策略等,从而使得在国内开发的产品从一开始就能很好地适应市场需求,并且能很快获得收益。李开复告诉记者,零一万物已经有产品在海外市场上线了九个月,赢得了千万级用户规模,在行业市场上也与部分世界500强企业达成了深度合作关系。另一方面,零一万物不仅仅从事大模型开发,同时也有自己的专业算力架构团队,能够从底层算力的层面对模型进行优化,因此整体训练成本比只做大模型开发的企业低一半左右,而且可以用有限的算力资源来打造性能极致的大模型产品。

李开复表示,美国一些先进的企业可以大量堆砌先进GPU算力,中国企业则没有这个条件,必须采取更加务实的策略,加强对AI+算力架构的综合开发,这其实也是美国AI研发企业的共识。总的来说,就是做AI模型研究必须要“向下走”,具备一定的计算效率优化能力。经过优化,零一万物千亿参数模型的训练成本同比降幅达一倍之多。以“万知”服务为例,零一万物利用自研的基于全导航图的新型向量数据库笛卡尔训练,大大缩减了“万知”的训练速度和成本,与采用第三方的向量数据库相比,节约成本超过80%。

从2023年9月开始,零一万物先后在海外推出了4款产品,面向个人用户的大模型产品也成功打通了用户订阅制的商业模式。李开复最后强调,AI大模型的推广应用将是一个长期的过程,不能依靠免费推广、持续大投入研发升级的模式来争夺市场。一个更合理的模式是发展性能优异、规模合理、高性价比的AI大模型产品体系,以不同层次的闭源大模型赋能产业伙伴、服务商业客户,以适当性能的开源模型促进生态建设、激活应用需求。“接下来,零一万物将立足全球市场,亦不断升级的大模型应用助力中国建设普惠型AI时代。”李开复说。

0 阅读:0

通信什么咬一口

简介:感谢大家的关注