红星专访|上海数据科学重点实验室主任肖仰华:AI很快会像电一样普及,数据是根本性问题

红星新闻 2024-04-11 12:56:35

20世纪公认的两大通用技术——电力技术与信息技术,分别推动了人类历史上的第二次和第三次技术革命。而今,当人工智能技术深深渗入人们的生产生活,新变革正悄然而至。人们普遍认为,引领第四次技术革命的那股新力量,是智能。

知识改变时代,知识就是力量。这些耳熟能详的话被赋予新的意义。因为知识不再是人类的专利,人工智能能够更高效、更深度地学习和应用知识。当人工智能如同“电力”一样进入各行各业,这股力量足以成就一个新时代。

还有多远抵达?复旦大学教授、上海市数据科学重点实验室主任肖仰华的观点是:“AI像电一样普及会很快,或许就在一两年后。”但前提是,还有一些桎梏需要打破。

近日,红星新闻记者深度对话肖仰华,探讨AI时代的突围之路。

肖仰华

迈入“人机协作”时代

要找到人机共存的边界

红星新闻:在您看来,通用人工智能时代已经到来了吗?

肖仰华:传统人工智能的应用已经很普及,但传统人工智能只在特定场景才能发挥价值,不具备理解开放世界的能力。而通用人工智能,人们希望它能像人一样,对开放世界作出理性思考、采取合理动作。

事实上,当前的大模型已经初具这样的能力,甚至人工智能已经在其整体性与开放性方面展示出超越人类智能的可能性。假设一个人一辈子能读三万本书,人工智能可以多一万倍不止。人工智能的推理链条也可以很长,普通人往往只能推理五六步,人工智能推理可以达到10步、20步。虽然现在我们还能发现AI某些方面的缺陷,但通用人工智能曙光已现,机器智能会更趋完善。

但时至今日,通用人工智能的定义还是很模糊。究竟达到怎样的程度才算通用人工智能?是达到普通人的平均程度?还是远超人类?不同的人看法不同。所以才会有人认为它已经来了,或是还在路上。

红星新闻:人工智能超越了人类智能的社会,是什么样子的?

肖仰华:人机共生,人机协作,未来社会一定是这样,这是应对日益复杂世界的必经之路。人与机器各有所长,机器精度高、长于计算,但往往富有知识而缺乏智慧;人类则拥有更复杂的智慧和共情能力。这种互补使得未来必须要人机协作,各做各自擅长的事情。

当然,这种共生还有一个前提,就是和谐共生。因为人机关系处理不当是有可能不和谐的,人类很容易对机器寄予太多期望,过度的人类体力与脑力的解放,反而可能导致机器侵犯本该人类负责的领域。资本推动下的产业界也可能纵容AI的滥用,很容易出现盲目作为。所以必须设定应用边界和安全边界,只有和谐才能长远发展。

红星新闻:人工智能还有多久能像电一样普及?

肖仰华:其实人工智能应用早已在各个领域与特定场景形成应用,比如刷脸支付。而当前兴起的这一波人工智能浪潮,是基于2022年底ChatGPT的横空出世。这一波浪潮的本质是以生成式大模型为代表的通用人工智能,这也意味着人工智能迈进了重工业时代。

一旦人工智能迈入重工业时代,它对社会和产业的影响是全方位的,能级远超以小模型为代表的小作坊时代。所以当下人们提到人工智能普及,更多时候是在说,AI应用不再局限于特定场景,像电一样全方位普及还有多远?

回忆一下电的普及。先有发电厂,类比于AI当下的发展相当于训练基础大模型,以形成智能能力。有了电后,还要发明电器,电能才能赋能各行各业。类似地,有了智能,还要有大模型的应用程序、解决方案。现在的AI企业大体分为两拨,一拨训练大模型,一拨开发应用,前者相当于发电,后者相当于制做电器。当产业的生态健全了,AI也就能像电一样普及了。

我相信这一天很快会来,或许就在一两年后,因为人工智能发展的速度特别快,接下来大模型一定会像电和通讯网络一样普及,渗透到社会的每一根“毛细血管”。

人才、技术、算力长期看都不是问题

但数据却可能是真瓶颈

红星新闻:国内发展大模型,您觉得人才是最大的短板吗?

肖仰华:ChatGPT诞生之初,我们强烈感到人才短缺。像OpenAI团队那类有大模型经验的人才,在2022年底的那个时间段确实是极为稀缺的。因为那时全世界没有多少人判断AGI这条路线能走通,只有OpenAI及少数公司三四年不盈利仍然坚持生成式人工智能的技术路线。

所以ChatGPT刚上线时,全世界都措手不及,那时甚至有报道称国内有大模型炼制经验的人不超过100人。但经过2023年一年的百模大战、千模大战,虽然我们的大模型质量离GPT4仍有差距,却锻炼了大量的实战型人才。

生成式大模型的突破从根本上来讲是大规模工程实践创新,特别是数据工程和大规模算力运维工程,这两方面决定了一个大模型的核心竞争力。我们国家的高等教育长于工程教育,我们培养的工程师有了足够的机会、资源与平台后完全能够胜任大模型工程需要。所以从长期来看,人才不会成为制约。

但我们还需要具备复合能力的大模型应用人才,能够优化大模型架构的算法工程师、能对大模型炼制工艺进行科学分析的数据科学家、能对大模型进行客观全面评测的评测工程师。这些人才仍需要在实践中培养。

红星新闻:那算力是制约因素吗?

肖仰华:算力目前确实还不够用,但我认为算力制约在未来一两年间将逐步缓解。

各地政府过去几年建了大量算力基础设施,但当时主要集中在通用算力的布局,以数据的存取访问为主要目的,而不是适合于大模型炼制的智算算力。大模型炼制的算力主体是高端GPU算力卡。目前英伟达的高端GPU算力对我国出口受到美国政策限制。国产算力仍然在努力发展中,生成能力仍然难以满足市场需求,全行业呈现一卡难求的状态。

但是从长期来看,算力制约会逐步缓解。第一,各地政府、大型企业都在加大智算中心的建设规划,智算算力已经成为人工智能产业发展的基础设施。第二,国产算力正快速发展,算力生态和生产能力都在不断发展。第三,国际贸易也一定程度上能够缓解算力。第四,技术进步也在不断降低大模型训练与推理对于算力的需求。

红星新闻:您认为最大的桎梏在哪儿?

肖仰华:数据。这可能是整个人工智能发展的最大制约。

高质量数据才能喂养出高质量的模型,大模型总体上呈现出对于高质量数据的饥渴状态。因为现在数据总体是一种分散状态,尤其行业数据。数据供应不畅,数据治理能力薄弱,都是限制大模型向纵深发展的制约因素。从长期来讲,数据问题的缓解需要数据要素市场的充分发展,但现在数据要素市场仍在发展与完善中,制度建设、基础设施建设仍然需要时间,需要大量实践的反馈与优化。

此外,数据规模与复杂性的增长,是随着人类社会的发展而发展的。换言之,伴随着技术进步与社会发展,数据的规模只会不断打破新的记录,数据的技术挑战只会进一步放大。

所以说,人才、技术、算力都是短期问题,数据才是长期性、根本性、战略性问题。

不是只靠垂直大模型就能突围

“科研鉴赏力”将是未来人才的核心素养

红星新闻:有人认为,国内的优势是发展垂直大模型,而不是耗力去做基础大模型。对此您认同吗?

肖仰华:在2023年初我曾经用过一个说法叫“农村包围城市”,就是先把外围应用做好,再来包围大模型的基础模型底座。但要强调,这并不是说只做应用,轻视或不做基础大模型。恰恰相反,我们要重视基础大模型,做外围应用的最终目的,是为了基础大模型形成突破、迎头赶上,直至领先超越。因为基础大模型的技术是顶天的,它决定了大模型应用效果的天花板。这种捅破天的事儿,是一定要做的,而且要不遗余力去做,否则我们能触摸到的天花板高度会被限制在较低水平。

红星新闻:做垂直大模型,一哄而上怎么办?

肖仰华:一个产业热潮兴起之初,一定会吸引大量的产业资源,这其中不排除盲从跟随、追逐热点,但产业发展有它自身规律。在一个产业发展之初,必须有足够规模的从业人员去实践、去试错,最终市场的火眼金睛,会逐步筛汰裸泳者、投机者,不妨让“子弹再飞一会儿”,市场的力量是足够强大的。

移动互联网当时也是一样,都会有迅速发展期、泡沫期,泡沫之后沉淀出一批真正的优质企业。

红星新闻:SORA团队只有13个人,为什么能作出爆款?

肖仰华:首先,我认为我们的优秀学生完全能达到这13个人的水平。事实上,国内很多团队很快就复现了SORA。但有一个问题值得重视,我们的人才缺乏科研鉴赏力。

OpenAI一定有高人在,他们的首席技术专家有着深刻的技术洞察力,为SORA团队选择了技术路线。SORA所采用的技术模型并非最先进的模型,ChatGPT所使用的模型架构也早在2019年就为学术界与工业界所广泛认知。

人类的科学研究早就进入了一种过度繁荣的状态,每年产生的科研成果,比如论文、专利,几乎以指数增长方式在爆发,这意味着解决问题的成果很可能早已存在。真正的难度在于如何从海量成果中筛选出能够切实解决问题,成本可控、效果显著的成果。这种“科研鉴赏力”应该成为未来高等教育人才培养的核心素养之一。

红星新闻首席记者王垚

0 阅读:10
红星新闻

红星新闻

深度、态度、温度