戍天九思原创第695期
这是一个重大命题,也是一篇专业性很强的深度长文,还是笔者最难写、下功夫最多的文章,是写给有耐心、对AI有兴趣的同道看的,欢迎留言讨论。
近日,美国OpenAI发布首个视频生成模型“Sora”。该模型通过接收文本指令,即可生成60秒的短视频。
这是通用人工智能ChatGPT里程碑式的迭代!有人说,Sora是世界模型,是计算机视觉逻辑的革命,也是计算机理解世界和影响世界的开始,正在带来一场伟大的科技革命和产业革命!
于是,引发了无数国人对中国AI发展的焦虑!在一次中美两国学者交流时,有美国学者说:你说的美国现在国内问题很多,这也不行,那也不行,我承认这个事实。但是,只要美国赢得算力革命,一切就翻盘了。
最近,笔者受中国人工智能领域奠基人张钹院士演讲和《群星璀璨的人类AGI之路》一文的启发,联想到几个重要问题,对AI发展有一些全新的认识和启发。
为什么说ChatGPT正带来一场深刻的革命?
为什么是语言大模型打开通用AI天花板而不是下棋AI?
“狼孩”的故事说明了什么?
智能的本质是什么?人类语言与人类智能、人工智能有什么关系?
驱动AI智能的到底是数据还是知识?
通用AI能像人一样从人类语言中获得智能吗?
人类语言会成为万物互联的智能体通用语言吗?
具有5000年文明史的中国在通用AI时代有什么优势?
什么是通用人工智能的战略制高点?
我们搞清楚这些问题,知道人工智能发展的大致脉络,就会对中国人工智能发展坚信不疑。
ChatGPT正在带来一场深刻的革命
2023年11 月 25 日,88岁高龄的中国科学院张钹院士在全国社会媒体处理大会上发表演讲时说:“ChatGPT 的成功不是 OpenAI 一家公司的成功,而是将近 70 年时间全世界人工智能研究人员的共同努力换来的成功。”
怎么估计ChatGPT 的成果呢?张钹院士认为最恰当的估计是向通用人工智能迈出一步。按照微软的说法是通用人工智能的火花。Chat GPT的成功源于三个关键技术突破:
第一个技术,基于词嵌入的文本语意表示。
第二个技术,基于注意机制的转换器。
第三个技术,基于预测下一个词的自监督学习。
由于上述三大技术的突破,使得机器在处理文本上发生了本质的变化,过去机器处理文本时当数据处理。而Chat GPT 是在找到了文本语意表示这个条件下再处理文本,所以,它不是把文本当成数据来处理,而是把文本当成知识来处理,可以从大量的语料中可以获取知识。
张钹院士还讲,Chat GPT 的成功并不是仅仅归功于三个要素——数据、算力和算法,人工智能应该强调四个要素——知识、数据、算法和算力。
他还讲,Chat GPT的突破可能带来三件事情是不可阻挡的。
第一件事就是必然带来科技的革命,首先会带来人工智能本身的革命。
第二个事情,大家讨论得非常多,就是产业的变革。
第三个事情,就是人工智能治理。
总之,人工智能通用理论即将形成,AI革命发展势不可挡。
为什么是语言大模型打开通用AI天花板而不是下棋AI?
在人工智能发展历史上,有四次里程碑式的突破:
★1997年,第一代知识驱动的人工智能——IBM的“深蓝”,打败俄罗斯国际象棋大师卡斯帕罗夫,标志着机器智能首次超越人类脑力。
★2016年,第二代数据驱动的人工智能——谷歌AlphaGo,战胜围棋九段李世石,标志着机器智能超越最复杂的人类脑力活动。
★2022年11月,第三代知识和数据双驱动的人工智能——首个语言大模型ChatGPT,由美国OpenAI发布,标志着首款通用人工智能诞生、算力爆胀时代来临,它架起了人与机器直接对话的桥梁!
★2024年2月,美国OpenAI发布首个视频生成模型“Sora”,标志着通用人工智能的快速成长!
我们从人工智能四次里程碑式的突破中可以看出:最终是语言大模型打开了通用AI天花板而不是下棋AI。为什么?
一是AI语言大模型首次跨过了人类智能的门槛。人工智能是由硬件和软件构成的,人工智能发展从单一智能走向通用智能是一个从量变到质变的过程,当人工智能具备了类似人脑一样的硬件和软件之时,才有可能具备像人一样的通用智能。人类脑细胞数量大约有140亿~150亿个,有1000亿个神经元。ChatGPT拥有1750亿个参数(相当于人脑神经元),是基于8000亿个单词的语料库(45TB文本数据)训练出来的。ChatGPT3.5机器由28.5万个CPU和1万个GPU组成,而AlphaGO机器只有1920个CPU和280个GPU。说明ChatGPT已经具备了类似并超过人脑的硬件和软件,也就是说跨过了从单一智能走向通用智能的门槛。
二是AI语言大模型从语言中学到了通用的人类智能。下棋AI学习的只有人类棋谱,只是人类单一的下棋经验,因而下棋AI只有人类下棋的单一智能。AI语言大模型学习的是包含人类丰富智能的语言,而语言是人类文明的载体和智能发展的工具,一旦AI语言大模型掌握了像人类一样足够多的语言,就能像人类一样理解和生成自然语言,从而能够学习和处理各个领域的知识和信息,就有可能像人类一样具有通用智能。由此可见,语言既是人类文明的载体和智能发展的工具,也是机器听懂人话、进行人机对话的桥梁,还是人工智能从单一智能迈向通用智能的桥梁。
三是AI语言大模型具有智能快速升级能力。语言模型在训练过程中从人类语言中学习到大量的知识,并且可以通过不断学习和优化来提高自己的能力。这种自我学习和自我优化的能力,使得AI语言大模型在处理各种复杂任务时更具优势。
四是人机对话让AI语言大模型具有更强的通用性。AI语言大模型架起了人机对话的桥梁,事实上就是打开了通用人工智能的天花板,从而使AI语言大模型有能力将一种信息翻译成另一种信息,可以转换成语音、文字、音频、视频、程序和动作,未来用途将更加广泛。
张钹院士讲,通用人工智能第一步是生成式AI,即能够人机交互的语言大模型、视频大模型、多模态大模型。
第二步,机器之间交互的多智能体。
第三步,与环境交互的具身智能。
这无疑是人工智能发展的三大高地,但是,人工智能发展的战略制高点还是人工智能通用理论。
狼孩的故事说明智能是离不开语言和交流的
1919年,在印度加尔各答东北部的洞穴里,猎人打死了2只母狼,2只公狼乘机逃跑了,在洞穴深处发现了2只小狼和2个狼哺育的女孩,猎人把狼孩带回村里。1920年10月,被印度传教士辛格发现并送入孤儿院。
大的女孩8岁,小的2岁。据推测,她们是在半岁时被狼带到洞穴去的。辛格还给她们起了名字,大的叫卡玛拉、小的叫阿玛拉。
“狼孩”刚被发现时用四肢行走,慢走时膝盖和手着地,快跑时则手掌、脚掌同时着地。她们喜欢单独活动,白天躲藏起来,夜间潜行。怕火怕光,也怕水,不让人们替她们洗澡。不吃素食而要生吃肉,吃东西时不用手拿,而是放在地上用牙齿撕开吃。半夜,她们像狼似的引颈长嚎。她们没有感情,只知道饥时觅食,饱则休息,很长时期内对别人不主动发生兴趣。
“狼孩”被送入孤儿院后,辛格夫妇对她们进行了耐心抚养和教育。一年后,小的阿玛拉死了,九年后大的卡玛拉也死了。但17岁的卡玛拉一直到死都没能学会说话,智力只相当于三岁的孩子。
“狼孩”的故事揭示了语言与智能的密切关系。
一方面,语言是智能的载体,智能离不开语言。“狼孩”在缺乏人类语言环境的影响下,她们的语言能力和智力发展受到了严重限制,错过了语言发展窗口期的“狼孩”也错过了智力发展的窗口期,说明语言对于智力发展必不可少。
另一方面,交流是智能发展的途径,智能也离不开交流。“狼孩”在缺乏人类交流的环境下,不仅丧失了语言能力,还错过了智力发展的黄金时期。说明交流是人类传递信息和表达情感的主要形式,也是人类智能发展的必要途径,语言与智能相互促进。
总之,“狼孩”的故事,说明人类智能离不开人类语言和人与人的交流,高级通用人工智能也同样离不开人类语言和与人的交流。
人类语言会成为万物互联的高级智能体通用语言吗?
“股神”巴菲特投资有句经典名言:模糊的正确远胜于精确的错误。
现在的人工智能之所以不够智能,甚至无法像三岁小孩那样自主识别猫猫狗狗,关键就在于无法理解模糊和抽象的概念。面对充满不确定性的世界,只有当人工智能能够准确理解高度抽象的、模糊的人类语言之时,才是真正的通用人工智能——高级智能体。
从计算机语言历史看,从第一代由0和1组成的机器语言,到第二代汇编语言,再到第三代高级语言,如C、C++、Java等,计算机语言变得越来越复杂、越来越高效、越来越简洁好用,同时也越来越接近人类语言。
从计算机语言现状看,人类语言目前在智能体交互中的作用可能会受到限制。因为智能体之间的交互需要高效、精确且具备可扩展性的通信方式。相比之下,人类语言由于其复杂性和歧义性,目前还难以满足这些要求。
从计算机语言发展趋势看,这并不意味着人类语言在万物互联中没有价值。相反,人类语言在人机交互、智能助手和智能服务等领域具有广泛的应用。人类语言作为人类与智能体之间的桥梁,可以帮助用户更直观地与智能体进行交互,提高用户体验。
未来,随着人工智能技术的发展和标准化进程的推进,不仅会出现智能体通用语言,而且人类语言最终会成为高级智能体的通用语言,从而推动万物互联和智能体交互的发展。
驱动AI智能的到底是数据?还是知识?
张钹院士讲:第一代人工智能由知识驱动,第二代人工智能由数据驱动,第三代人工智能由知识和数据双轮驱动。
一方面,数据为人工智能提供了基础信息和处理能力。人工智能是由人类设计出来为人类服务的,它通过设定计算算法和大量数据积累来形成其底层基础。在这个过程中,数据是至关重要的。人工智能系统需要通过学习和处理大量的数据来不断提升其性能和能力,从而实现对复杂任务的自动化处理。这些数据可以来自各种来源,如传感器、图像、文本、音频等,它们为人工智能提供了丰富的信息,使其能够理解和处理各种复杂的情况。
另一方面,人类知识在人工智能中扮演着更重要的角色。人工智能系统需要不断地从人类用户那里获取反馈和信息,以便更好地满足人类的需求。这些反馈和信息可以来自用户的操作、语言、情感等多个方面,它们为人工智能提供了关于人类行为和需求的深入理解。通过不断地学习和优化,人工智能系统可以逐渐地积累起丰富的人类经验,从而更加准确地预测和满足人类的需求。
当年,训练AI靠的就是海量的人工标注图片。比如,2006年,AI不会识别猫,怎么办?就让人来手工标注。在图片上,把猫标出来,让AI一个一个去认。据说普林斯顿大学的华人科学家李飞飞,为了训练一个AI,通过亚马逊的在线众包平台,在全世界167个国家,雇佣了5万人,一共标注了1500万张图片。
直到今天,AI训练依然需要大量的数据标注员。ChatGPT的训练分三个阶段,前两个阶段都需要大量的人工标注,只有第三阶段不需要。因为ChatGPT数据是从网上采集的,里面什么数据都有,还可能包含一些暴力、犯罪或者反人类的内容。怎么把这些内容过滤掉?也得靠人来手工标注。今年1月,美国《时代周刊》报道,帮ChatGPT标注有害内容的,主要是肯尼亚人。他们平均每人每天要标注将近200段文字。截止2022年,全球从事数据标注的人数高达500万,将来还会更多。
笔者认为, AI智能的是数据和知识双轮驱动,而且知识比数据更重要。形象地说,人工智能的智能之所以能像滚雪球那样越滚越大,因为最初有人类经验和知识的智能小球。
具有5000年文明史的中国在智能时代有什么优势?
笔者认为,人工智能发展是一场马拉松式的长跑,谁笑到最后,谁笑得最美。目前,中美AI大模型领军企业走了一条完全不同的发展路线。
美国有算力和算法优势,OpenAI走的是城市中心战路线——从底层技术硬骨头开始啃(语言大模型、视频大模型、多模态大模型),有先发的技术优势。
中国芯片被卡脖子,华为有5G网络和架构优势,华为走的是农村包围城市路线——成立20个军团,从20个具体领域应用开始啃,有后发的应用优势。
那么,到底是美国的城市中心战路线最先走通?还是中国的农村包围城市路线最先走通?
从历史经验看,上个世纪,德国人发明了内燃机,靠着领先的发动机技术,很快把汽车变成了欧洲贵族的奢侈品;后来,美国人发明了汽车流水生产线,通过大规模生产,把汽车变成白菜价,后来居上成为“车轮上的国家”,并因此赚得盆满钵满。人工智能技术也是这样,只有广泛应用到人们的日常生产生活之中,才能发挥出最大效益。中国有全球最齐全、最强大的制造能力和实体经济,一旦华为把人工智能技术率先在20大领域的应用打通,中国就会赢得人工智能应用的巨大后发优势,就会像当年美国一样吃到汽车技术大规模应用的巨大红利!
从发展现状看,根据人工智能语言理解测评标准,目前全球排名前10的人工智能大模型,中国占有9席,美国只占1席(ChatGPT4.0);全球排名前20的人工智能大模型,中国占有16席。虽然美国技术领先,但是美国产业空心化,技术很难落地,可能成为开路先驱,未必能吃到更多的应用红利。而中国有数量优势,数量优势是可以转化为未来产业落地的应用优势,最终赢得算力革命。
从发展后劲看,美国卡不住中国芯片的脖子,华为5纳米芯片呼之欲出,中国还有人工智能四大要素的综合优势,有全球最丰富的数据资源,有全球规模最大的人才队伍,有全球最丰富的应用场景,还有举国体制优势,中国人工智能发展潜力巨大、后劲十足。
笔者认为,通用人工智能时代,知识成为人工智能四大要素之首,开启了一个“不怕做不到,就怕想不到”的新时代。笔者最看好的中国发展后劲还是5000年华夏文明底蕴。
过去,5000年中华文明,曾经被许多人视为历史包袱和落后根源,汉语因难学成为国际交流障碍。未来,5000年中华文明将是数字文明时代中国取之不尽、用之不竭的思想宝库,汉语可能是表达最丰富、激发想象力创造力的最佳通用语言。
5000年的中华文明,5000年的生存智慧,典籍浩如烟海,内容博大精深,这是全世界最丰富的知识宝库,也是中国人工智能可持续发展的最大优势,还是数字文明时代中国人的智慧源头和新文明火种。古老的中华文明一旦与现代的人工智能技术结合碰撞,就会重新焕发出原子弹爆炸一般的巨大能量和威力!
争夺人工智能发展的战略制高点
张钹院士讲:当前Chat GPT 输出有三个不可避免的缺点:
第一,胡说八道的错误是必然的。
第二,输出非常受输入的影响,提示词不同,输出结果大为不同。
第三,不知道自己错了,错了也改不了。
也就是说,现在的人工智能技术是不安全的,不可靠的,也是不可信的。迫切需要从顶层设计上破局——建立人工智能通用理论,而ChatGPT 的出现为构建人工智能通用理论提供了新机会和新可能。
笔者认为,这是人工智能发展的战略制高点,也是未来中国发展人工智能的巨大机会!中华5000年的文明底蕴,擅长战略思考和顶层设计的中国人,有可能最早创造出通用人工智能理论,从而从理论上打通通用人工智能发展的任督二脉!
最后,笔者想提醒大家:现在进军AI行业,如同八九十年代下海,2000年代时进房地产,2010年代搞电商一样。语言大模型大降低了使用AI的门槛,普通人进军AI行业,不必强求你必须很懂,而是要成为会用的高手。
机会千载难逢,就看你看懂了没有?行动起来没有?