近日有市场消息称,“大模型六小龙”中至少有两家公司已经放弃预训练。10月16日,零一万物CEO李开复辟谣称,零一万物绝不会放弃预训练模型工作,并宣布推出最新旗舰模型Yi-Lightning。
预训练是指在大规模数据集上对深度学习模型进行初步训练的过程,是大模型训练的第一步。从成本角度而言,预训练模型耗资巨大,训练成本近年来更是持续攀升。中国市场是否需要这么多大模型,一直以来备受争论。
在接受上海证券报等媒体采访时,李开复表示,预训练模型是一个技术活,而且对人才的要求颇高,需要懂芯片、模型、推理、架构、算法的人才通力合作。做这件事的成本也非常高,不是每家公司都可以做成,以后做预训练的公司可能会越来越少。
不过他也表示,根据其所掌握的信息,“大模型六小龙”均有足够的融资额度,付得起预训练模型ProductionRun三四百万美元一次的训练成本。“我觉得中国的六家大模型公司只要有足够好的人才和想做预训练的决心,融资额跟芯片都不会是问题。”
定价0.99元/百万tokens
零一万物成立于2023年5月,由创新工场董事长、前微软全球副总裁李开复创立。自创立以来,零一万物已迎来多个重要节点:2023年11月6日,发布首款预训练大模型Yi-34B;2024年5月,官宣一站式AI工作平台万知;2024年6月,Yi-Large等系列大模型正式登陆阿里云百炼平台,这是零一万物首次通过云厂商提供API服务。
在10月16日的发布会上,李开复介绍道,在国际权威盲测榜单LMSYS上,最新发布的Yi-Lightning超越GPT-4o-2024-05-13、Claude3.5Sonnet,排名世界第六,中国第一。这是中国大模型公司目前在该榜单上取得的最好成绩。
模型性能升级之余,Yi-Lightning的推理速度也有大幅提升,首包时间(从接收到任务请求到系统开始输出响应结果之间的时间)较上半年发布的Yi-Large提升一倍,最高生成速度提速近四成。
值得一提的是,零一万物将Yi-Lightning的API价格降至极低水平,每百万token仅收费0.99元。对于这一价格,李开复称,零一万物在Yi-Lightning的定价上并没有亏本。从成立的第一天起,零一万物就同时启动了模型训练、AIInfra、AI应用三大团队,当三个团队都成熟后,再对接到一起。零一万物将这一模式总结为模基共建、模应一体两大战略——AIInfra能力助力模型训练和推理,以更低的训练成本训练出性能领先的模型,以更低的推理成本支撑应用层的探索。
此前在回应行业价格战问题时,李开复的回答是零一万物不参与价格战。李开复认为,要接入API,足够好的模型性能很重要,不然产品无法达到PMF(产品市场契合点)。“另外很重要的一点是,0.99元/百万token的价格很便宜,但如果一个应用里每个用户每天调用十几次,累积下来每年的成本还是不容忽视的。”
商业落地差异化布局
在大模型的商业落地上,零一万物在toB和toC均有布局。李开复介绍,零一万物在toB业务上找到了一些破局空间,比如用数字人来做零售、餐饮等,另外还有两三个领域在探索中。“做toB就做国内,做toB就做有利润的解决方案,而不只是卖模型,不只是做项目制。”
C端业务方面,零一万物主要布局海外。李开复明确,零一万物暂不在国内推出新的toC应用,已有的产品会继续维护,更多的精力会在海外,用更低的成本获取高质量的用户,或者直接把App卖出去,向用户收取订阅费。
在10月16日的发布会上,零一万物首度对媒体公布了全新toB战略下的首发行业应用产品AI2.0数字人,聚焦零售和电商等场景,将最新版旗舰模型Yi-Lightning实践于具体行业解决方案。
与AI1.0时代的数字人不同,零一万物为AI2.0数字人配备了“AI大脑”——在电商话术大模型加持下,数字人能够基于模型自有知识库与外接数据库,自主生成直播话术,也能够快速、精准地识别直播弹幕的互动意图,给出对应解答。
目前,零一万物的AI2.0数字人解决方案涵盖了AI伴侣、IP形象、电商直播、办公会议等多个应用场景,合作案例包括全国某著名餐饮连锁店、某头部酒旅类客户、全国某知名水果连锁店等。其中,某头部酒旅企业在接入Yi-Lightning全新加持的数字人直播后,GMV较此前上升170%。
很多中美公司都在往o1方向狂奔
9月13日凌晨,OpenAI发布新模型o1,其复杂逻辑推理能力、数理能力惊艳业界。李开复透露,根据他与OpenAI人员的交流,OpenAI内部在技术上还有所保留,不急于向市场公布。“因为他们领先行业足够多,到了一定的业务节点才释放出来,这是他们能做的而别人不能做的。”
李开复预计,五个月后就会有不少类似o1模型的能力出现在各个公司,包括零一万物。“一年半以前,大家觉得大模型最厉害的地方就是预训练,现在发现后训练同样重要,要感谢OpenAI点醒我们这一点,我相信很多中美公司都在往o1方向狂奔。”
与上一代大模型相比,零一万物YiLightning追击GPT-4o性能水平的周期从六个月缩短到了五个月,后续应如何进一步缩短时间差?
李开复对此表示,缩短时间差非常困难,双方在算力资源、技术上的确存在差距。但中国大模型厂商在研发上有其特色,比如数据处理、训推优化等。保持六个月左右的追赶周期,已经是很好的结果。
“千万不要认为落后六个月是一个很羞耻的事情,或者一定是要追赶的事情。”李开复认为,如果要破局,可能需要一个前所未有的算法才有机会。