​微软CTO认为大语言模型虽存在质疑,但“扩展规律”将继续有效

黑客部落 2024-07-16 13:37:14

微软CTO凯文·斯科特认为,即使在一些人对AI进展停滞的质疑声中,大语言模型(LLM)的“扩展规律”仍将推动AI进步。

他在上周二发布的红杉资本Training Data播客采访中重申了这一观点。斯科特在微软与OpenAI之间达成的一项价值130亿美元的技术共享协议中发挥了重要作用。“尽管有些人认为我们在扩展上遇到了边际收益递减的情况,但我试图让大家明白,这里存在一个指数效应,”斯科特说。

“不幸的是,由于建造超级计算机和在其上训练模型需要时间,我们只能每隔几年才能体验到这种效应。”LLM扩展规律是OpenAI研究人员在2020年探索的一种模式,显示语言模型的性能随着模型规模(参数增多)、训练数据量和计算能力的增加而按一定规律提高。这些规律表明,简单地扩大模型规模和训练数据量,可以显著提升AI能力,而不一定需要基础算法上的重大突破。

自那时起,其他研究人员对扩展规律能否持续提出了质疑,但这一概念仍然是OpenAI AI开发理念的基石。

你可以看到斯科特的评论:斯科特的乐观态度与一些AI社区批评者的观点形成对比,这些批评者认为LLM的进展在GPT-4这一代模型上已经停滞。这种看法主要源于一些非正式观察结果和基准测试结果,认为最近的模型(如谷歌的Gemini 1.5 Pro、Anthropic的Claude Opus,甚至OpenAI的GPT-4o)没有显示出像早期版本那样的巨大能力飞跃,LLM开发可能正在接近边际收益递减。“我们都知道GPT-3比GPT-2好得多。

我们也知道GPT-4(13个月前发布)比GPT-3好得多,”AI批评者Gary Marcus在四月份写道。“但自那以后发生了什么?”停滞的感觉斯科特的立场表明,像微软这样的科技巨头仍然认为有理由在更大的AI模型上进行大量投资,押注于继续取得突破,而不是能力的停滞。

考虑到微软对OpenAI的投资以及其大力推广的微软Copilot AI功能,公司有强烈的兴趣维持持续进展的印象,即使技术可能停滞。频繁的AI批评者Ed Zitron最近在他的博客文章中写道,继续投资生成性AI的一个辩护理由是“OpenAI拥有我们不知道的东西。一个大而性感的秘密技术,将永远打破每一个质疑者的骨头。”他写道。

“然而,我有一个反驳:并没有。”LLM能力和基准测试进展缓慢的某些感知可能是由于AI迅速进入公众视野,实际上,LLM在此之前已经发展了多年。在GPT-3于2020年发布和GPT-4于2023年发布之间,OpenAI持续开发LLM。

很多人可能因为2022年11月下旬发布的ChatGPT(使用GPT-3.5)而对GPT-3类模型刚刚有所了解,因此在2023年GPT-4发布时感知到了能力的快速提升。在播客采访中,微软CTO反驳了AI进展停滞的观点,但他也承认这一领域的数据点不频繁,因为新模型的开发通常需要数年时间。

尽管如此,斯科特对未来的迭代将显示出改进充满信心,特别是在当前模型存在问题的领域。“下一个样本即将到来,我不能告诉你具体时间,也不能准确预测它的好处,但几乎可以肯定的是,它会在当前脆弱的领域表现得更好,你会觉得,哦天哪,这有点太贵了,或者太脆弱了,无法使用,”斯科特在采访中说。

“所有这些都会变得更好。它会变得更便宜,事情会变得不那么脆弱,然后更复杂的事情将变得可能。这就是每一代模型随着规模扩展的故事。”

0 阅读:0

黑客部落

简介:计算机安全技术分享,网络安全攻防技术分享