北京时间3月15日凌晨,OpenAI正式推出大型多模态语言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。
GPT-4的发布正好赶在百度语言大模型“文心一言”发布的前一天。压力,再一次给到正加班加点鏖战“中国版ChatGPT”的各家大厂这边。
GPT-4最为亮眼的革新莫过于支持“多模态”输入,也就是相比于ChatGPT(基于GPT-3.5)仅能文字输入和文字输出,GPT-4还支持图片、文字输入——换句话说,它看得懂表情包和梗图。
此外,根据 OpenAI公布的研究数据,GPT-4不仅在各项性能表现上均优于GPT-3.5模型,在一系列人类测试中也表现出了更强的能力,其中包括“难倒”万千大学生的高等数学(微积分)、统一律师资格考试、美国高考(SAT)数学……
目前,OpenAI发布了集成GPT-4的ChatGPT Plus,用户可以以每月20美元的订阅标准抢先试用。不过,ChatGPT Plus暂时还未开启图像输入功能。
OpenAI并未公布GPT-4用于训练的数据规模,但考虑到前代模型ChatGPT(基于GPT-3.5模型)使用了1750亿个参数,业界估算GPT-4使用的参数规模或达到100万亿级别。
而在几年前,这是不可想象的。
ChatGPT万亿参数背后
全球顶级人工智能(AI)科学家、斯坦福大学终身教授、曾任谷歌首席AI科学家的李飞飞分享过一个故事:
2009年之前,AI图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。
更深层次的原因是,想让AI认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片“喂”给AI进行训练。“有多少人工,就有多少智能”,AI能力越强,背后要付出的人力越多。
因此李飞飞设想,如果人工标注足够多的图片并用以训练,理论上就能够得到“无所不知”的模型。
这堪称一个疯狂的想法,如果想让AI识别出字典上的所有物体,需要标注的图片数量达上亿张,李飞飞的3人课题组要不眠不休干几十年才能完成。
最后,李飞飞不得不通过众包平台发布任务,低价雇佣全球各地的劳动力完成标注任务——可想而知,大部分标注工来自更具人口红利的国家和地区。
这是全球最知名大型视觉数据库ImageNet背后的故事,也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了全球各地大大小小的AI项目,但也揭示了AI数据处理环节是劳动力密集产业的事实。
从那之后,资金涌入各类AI模型创业领域,相比之下AI数据环节则少有人问津。
不过十余年之后,当曾经梦想的“无所不知的模型”真正诞生,情形似乎开始发生变化。
美国研究机构OpenAI发布的大语言模型ChatGPT,被视为揭示了AI行业新的发展方向,也带动各路资本涌入大语言模型研发。
大型模型对数据处理提出了新的玩法,也意味着全新的技术掘金空间正被打开。一二级市场中,投资热情已经带动着相关企业的估值高涨。开年至今,A股“AI数据第一股”海天瑞声已拉出4个涨停板。截至3月15日收盘,海天瑞声市值已达到70.41亿元。
不仅如此,据业内消息,多家大厂正在着手将数据标注团队独立出来。一场对AI数据服务市场的抢夺战,正在吹响号角。