人工智能究竟是一项会改变世界的技术,还是它一个过热的泡沫?是个噱头?
毋庸置疑,人工智能是一场能够与当年工业革命相媲美的技术革命。就工业革命而言,我们如今更多纪念的是瓦特、蒸汽机,但是蒸汽机实则只是一个象征物,工业革命真正伟大的意义是福特。
人工智能的出现就好比电的出现我们在研究工业革命的历史,特别是在对福特的研究时,发现福特曾在自己的流水线旁安装了 9 台巨大的蒸汽机,有两三层楼高。按理来说,蒸汽机并不最理想的工厂动力,因为它不够持续稳定。
后来才明白,这 9 台蒸汽机是用于发电的,并不是直接用蒸汽机驱动流水线,而是蒸汽机在流水线边发电,然后通过电力来驱动流水线,实际上这属于火力发电。这种蒸汽发电用了 10 年,10 年后,就被外接电网所替代。
我们曾将 GPT 这类生成式人工智能、这种充分智能的人工智能体比作蒸汽机,现在看来这是不对的,我们应该将其比喻成电力。比如自动驾驶这种依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作的智能体,这就相当于福特的流水线已经建立起来,其背后依靠的当然是电力。我们认为在未来的十年、二十年、三十年里,会像当年无数人用流水线复制福特一样,用人工智能的经验去替代司机,用人工智能的经验去替代其他专家。
一个领域的专家经验会被人工智能复制替代,进而转变为服务提供给民众。反过来对于民众而言,未来的二三十年将是我们另一个黄金期。我们大量不擅长但被迫去做的事情不再需要自己亲力亲为,会有“专家”以非常低廉的成本帮我们完成,就跟当年福特车那样,成本极低就能让专家帮忙处理各种事务。
人工智能技术革命三阶段因为很多技术我将其分为三个阶段,这并不能完全算我的原创观点,来源于斯坦福大学的一个教授,我进行了以下总结。
第一个阶段称为基础革命,比如电,电是非常基础的革命,但基础革命通常不会直接发挥作用,尽管每个人都觉得这个东西会改变整个世界,但是电力能干什么呢?我拉电能有什么用途呢?
真正重要的第二个时刻叫补充性技术。电的补充性技术是什么呢?电动机把电转化成了动作,电原本只是一种能量,却通过电动机变成了世界的行为,电动机拉动了轮子转动,再通过传动设备让各种各样物体动起来,电动机就是真正的补充性技术。
有了这个补充技术之后,第三步才是真正的杀手级应用(killer application)。就像前文所说的福特,福特利用流水线,因为有了电动设备,可以一路往下传递。最终成功的人并不是发明电的人,也不是发明电动机的人,而是福特这个杀手级应用。
同样的道理,互联网也经历了三个步骤。首先是互联网被发明,1993 年有了互联网,我们当时只是发邮件,不知道还能做什么。直到补充技术——浏览器出现,谷歌随之诞生。最后成功的不是互联网的发明者,也不是浏览器的发明者,而是谷歌,也就是在第三拨取得成功。
我觉得如今的人工智能就相当于是电,大模型最终输出的是智力,它是一种能源。所以做大模型的人,最后不一定是最成功的,就像做电的人不一定是最成功的人。
未来的大模型就像电厂一样,它会源源不断地输出电力,以 Token(代币)的方式卖给你,就像电以度的方式出售。未来的 Token 会非常便宜,所以卖电不挣钱,卖智能也不挣钱,模型即便做得再大也不挣钱,但他们在等待一个东西,那就是真正的补充智能技术,然后才会呈现出真正的杀手应用。
人人工智能补充技术的出现和仍面对的问题那到底什么才是真正的人工智能的补充技术呢?非要严格来论,我们现阶段其实已经有了补充技术,但仍有上升空间。比如你们会发现人工智能虽然好,但是今天跟它交流完,明天再交流时又得从头开始,它不记得昨天的事情,那该如何解决?以前想的办法肯定是加一个 memory,加一个记忆模型,但真的要加这个模型,整个架构又不支持。
现在的做法特别简单,就是把昨天与你的互动保存下来,下载当作 prompt提示词发给你。而且不光是昨天,因为有些大模型是百万级别,百万 token 的提示词,这意味着过去三年里与你的互动今天可以一下全转给你,所以能够增强个性化。
只要获得这些信息,人工智能就能知道以前我们聊天的背景。然后我就可以说:“你怎么老是迟到,上次跟我吃饭也是迟到,下次吃饭还迟到。你去年情人节就没给我送东西。”可以翻旧账。
其二,AI agent 主要解决的是协作方面的问题。比如我要去调用其他的东西,这意味着我让本系统去调用另一个系统,或者调用另一个 APP。如果我开发这个软件,并且用户允许使用我的软件,也就意味着允许我用这个软件去调用其他软件。因为它代表着用户,所以如此打通之后,意味着人工智能智能体变得非常强大。由于它能够调用许多其他应用来予以支持,从而形成协作。
过去的 APP 各自孤立,就像一个个孤岛,我得在这些孤岛之间来回穿梭。一会儿打开这个,一会儿打开那个,甚至在这个里面复制地址,再到那个地图软件里去点击查询。而现在,在这个里面说一句“帮我直接找一家附近的好餐厅”,然后就能自动驾驶前往,打开美团搜索地址,再打开百度地图找到路线,最后通知车辆,一系列操作一步完成。
过去是我说什么你答什么,这叫信息到信息。而现在是我说什么你做什么,比如“你把冰箱里的那个菜拿出来,把今天的晚饭做了”,这是一个巨大的边界改变。
那目前还缺什么呢?以前称为思维链,现在还有一些新的模式,比如复杂逻辑、复杂思考,也就是在多次互动时进行复杂逻辑的连续推理,这方面还存在欠缺。如果基于每次的结果无法进行反复推理,那么这个人就显得思维简单,做事不够专业。所以这可能是接下来急需补充的内容。