文/当下君
图片/来源网络
没有什么比人工智能更像一片海。
从探索的角度来说,尽管人类已经在地球的外层空间探索并绘制了火星和月球的大部分区域,但到目前为止,世界上只有一小部分海洋被探索过。
人工智能也是如此,尽管从达特茅斯会议到今天已经有超过60年,但现在没有人敢说人类对这一领域的探索超过5%。
从蕴含资源和财富的角度来说,大海更几乎是无穷尽的、蕴含着矿产、能源、食物来源,甚至是人类未来建立家园的空间。
人工智能也是如此,它可能是彻底改变人类生活方式、文化、技术演进的一次革命。
无论通往星辰大海的征途是否必经过万丈孤独,但总有一小部分人试图探索AI的海洋,他们甚至发布了自己的大航海计划。
1
启航,纾解AI人才之困
2020年中国在人工智能领域的投融资金额再次创下新高,达到1748亿元,相比2019年同比增长73.8%。
相对于将近1800亿的投资金额,5亿元只是一个很小的数字。
但哥伦布首次远航的时候,也只有3艘船:旗舰圣玛丽亚号,以及平塔号和尼尼雅号。
对探索一个需要无尽资源的领域来说,有时候,方向比金额更重要。因为金钱不足可以追加,但方向错了就是纯粹的浪费。
对于百度飞桨来说,其大航海计划的启航计划,核心内容就是在三年内投入5亿元的资金和资源,联合500所高校,重点培训5000位高校AI教师,联合培养50万AI学子。
而中国未来AI人才的缺口,保守估计是500万。
也就是说,如果方向选择正确,百度与500所高校形成的合力,至少能解决中国AI人才之困的十分之一,预期效果可谓惊人。
但这个计划的执行,远远不是列出几个数字这么简单。
不久前,来自全国百余所高校的数百名教师齐聚北京,以学生的身份参加2021年首期也是总第十四期全国高校深度学习师资培训班,开启为期四天的AI学习旅程。这一活动由教育部和工业和信息化部指导,百度与国内各大高校联合发起。
笔者至今记得在这次培训班上遇到的一位老师谈到的真实情况,他说:“我们从2020年开始尝试办人工智能系,我们把能够胜任的老师和一部分正在接受培训的老师统统算进来,得出的结论是今年可以开两个班,每个班60人,一共120个人。”
如果按照500万人才缺口对应500所高校,每所高校要培养1万名AI人才,那么这所高校按现在的能力达到这个数字要83年;如果按照启航计划的口径,即培养50万AI人才,那么这所高校也要8.3年,是计划预期3年的2.7倍。
然而,这就是目前中国高校AI人才培养能力的现状,也是飞桨大航海计划中“启航计划”必须面对的现实。
在这个计划实施之前,高校培养AI人才的痛点包括师资、教学资源、硬件环境等方方面面。
第一要过的就是师资关,一个事实是,目前优秀的人工智能专业的毕业生,很少有把进入高校任教当做首选的。
“坦率的说,现在的国内一流学院、或者有海外留学背景的学人工智能方向的学生,对进入高校任教的兴趣是很少的。待遇上是一方面,更重要的是学校里也没有企业里的软硬件条件,没有实践的项目,所以从学以致用的角度,学AI的学生最好的选择其实是去企业,这没有错。”河南科技学院人工智能学院的负责人马玉琨表示。
换言之,一个优秀的人工智能专业的毕业生如果不进企业而进高校,那么他接触到的AI前沿动态、可供持续提升的实践资源、能够做出成绩的平台都将非常狭窄,他会很快落后于一线和脱离实际。
对此,中国人民大学信息学院院长、高瓴人工智能学院执行院长文继荣表示,应该大力鼓励和拥抱校企合作,让产教融合成为目前高校AI人才培养的新趋势,从而避免研究与人才培养进入固步自封的困局,他说:“高校要开放心态,和企业、政府去提出新做法与新思路。”
而作为企业,百度的努力则体现在,不断把前沿的AI成果通过校企合作、师资培训、评比竞赛等各种方式,传递给高校从事AI教学的一线教师,使他们能够始终与行业前沿同频共振。
例如,在WAVE SUMMIT 2021峰会上,百度飞桨就宣布——与三大高校创新创业实验室现场签约,包括清华大学基础工业训练中心、吉林大学创新创业实验室、郑州大学人工智能工程应用实验室。
“高校的人工智能研究,要始终和产业相结合,清华大学已经开始使用飞桨深度学习开源平台提供的开源算法和算力进行研究实践。同时,在人工智能创新创业能力证书的项目中,清华与百度共建产业级平台,请产业大咖来授课,与同学们形成良性互动。”清华大学基础工业训练中心人工智能实验室主任周晋表示。
百度公司AI技术生态部总经理刘倩在演讲中表示:“人工智能是一门实践出真知的专业,为了更好的支持高校教学,尤其是人工智能实践课的开展,飞桨新增开放了50+实战案例,如人体关键点检测、新能源汽车锂电池隔膜质检等,到7月底累计开放案例将达100+。这些案例的特点是——深入产业实践,来源于真实工业场景,数据集不仅来自百度内部,还有生态合作伙伴(高校、企业)共同支持”。
与此同时,百度还与高校知名专家学者和教授达成深度合作,为名师的教材配套相关的案例与实践教辅书。如浙江大学吴飞教授《人工智能导论》配套的案例与实践即将出版,复旦大学邱锡鹏教授的《神经网络与深度学习》配套的案例与实践,以及和更多老师的合作都将在年内陆续出版。
除了师资培训,百度拿出的还有大量资源。
在接触到了飞桨的AI Studio学习与实训社区提供的免费开放的GPU算力后,很多老师都非常的感动,一位老师对笔者说:“现在全球的GPU算力都极度紧张,大量的GPU卡被高价买去挖矿,一块两三年前的带GPU的显卡现在网上能翻三四倍的价格,卖五六千块,在这种全球的GPU算力都极度紧张的情况下,飞桨还能开放如此珍贵的资源用于高校的教学,难能可贵,很有责任感。”
但启航计划并不仅仅如此。
简单来说,AI人才可以分为4个层面:
理论引领者-产业引领者-产业实践骨干-AI应用者。
其中,是否有第一、二层次的人才,决定了中国能否成为世界级AI创新策源地;第三、第四层次的人才,决定了中国是否成为AI产业应用的大国和强国。
因此,除了培养师资以提供产业应用层面的人才之外,百度飞桨也盯住了进阶人才的培养。
为了更好支持青年学者基于中国自主的产业级深度学习平台开展科研,百度和CCF联合发布了CCF-百度松果基金,致力于推动我国深度学习平台和科技的应用,去年已有23位青年学者获得了松果基金资助。
如果在各大开发社区搜索“论文复现”,可以发现这是很多AI研究者的困惑,这是一个难度很高、又缺乏绝对标准的领域。面对这种现状,启航计划精选当年全球TOP10的AI论文,进行复现。
“百度的老师几乎是手把手带着我们,从精读解读论文、研习算法模型再到动手复现。事实上,由于论文的原文中不会把每个细节都写到,无论是阅读还是复现的过程中,我们都会遇到各种各样的困难,常规的方法是在开发者社区发文咨询,但通常很难得到有价值的帮助。”一位论文复现营的参与者告诉笔者:“但是像现在这样,在这有组织而且互帮互助的氛围下去做,整个的研读科研过程变得非常有趣,也非常有参与感,我们成功复现出像GAN、视频理解等前沿模型,并且进一步又贡献给飞桨的开源社区,获得感非常强”。
除此之外,启航计划在顶会及算法类比赛方面,有视觉方向的CVPR 2021 NAS、图像图形学会轻量级OCR大赛以及总奖金池高达300万的“先导杯”计算应用大奖赛;自然语言理解方向,则有2021语言与智能技术竞赛等。
他们正在航渡大海。
2
护航计划,与产业同行
百度创始人李彦宏多次提及AI产业化的重要性。
他表示,AI的发展的第二阶段,是经济智能化阶段,又具体分为上下两个阶段,在前半段,人工智能的发展主要围绕通用能力的开发和作为一种资源的AI能力的平台化;在后半段,人工智能开始全面的产业化,行业应用与商业化全面普及。
百度集团副总裁吴甜也表示,人工智能在和产业的结合正在快速发展。从飞桨与企业合作伙伴的实践中,值得关注的有几个具体趋势,分别是AI应用场景更加多元化和分散化,更深入与企业的业务系统结合呈现专业化的特点;自然语言处理应用课题大量增多,显示出企业更深层次的智能化需求在增加;很多应用已经走过了最初阶段,开始研究更为前沿和深入的问题。
然而,随着人工智能技术逐渐成为各行业实施数字化、智能化转型的核心动力,企业在面对具体应用场景的定制化AI开发中,不仅需要从零起步,自行跑通数据处理、算法开发、模型训练、模型部署、服务集成等多个阶段,更需要开发者具有丰富的AI实战经验,一系列的难题摆在迫切期待AI转型的企业面前,也使AI落地成为一个充满复杂性和挑战性的系统工程。
针对这一现状,飞桨“大航海”计划中,就包括最新发布的护航计划——面向产业智能化升级的“护航”。
因此, “护航计划”的核心是,未来三年,飞桨将投入10亿元资金,支持10万家企业智能化升级,与产业界一起培育百万AI人才。将汇聚生态资源去扶持一批在AI产业落地方面深耕的企业,技术赋能,输出更多百度的行业落地经验,也与业界探讨更深入的难点问题解法,共研共创。
在护航计划中,首席AI架构师培养计划(AICA)显得分外抢眼。
AI架构师在一个企业的AI实践中应该处于一个什么位置?
简单来说,AI架构师就是一个企业里AI应用的核心发动机。
按照吴甜的观察,AI的产业化,分为AI先行者探路阶段、AI工作坊应用阶段、AI工业大生产阶段。目前,大部分企业处于第一阶段,有少数进入了第二阶段,也就是“工作坊阶段”。
换言之,AI架构师是支撑企业AI应用三级跳的核心构建者,这是百度着重打造这一体系培养的关键,这些架构师将推动千行百业与AI大生态的对接。
从涉及的企业来看,由百度联合深度学习技术及应用国家工程实验室共同打造的首席AI架构师培养计划(AICA)在培养AI架构师上持非常开放的态度,面对的企业既有网易云音乐、万方数据、人民网、汽车之家这样的典型互联网企业,也有中国联通、浙江省能源集团、西南电子电信技术研究所、中海石油气电集团这样的国企,还有顺丰、OPPO这样出色的民企。
而培养课题涉及领域也更加广泛,包括AI辅诊系统、零售商品检测识别、电力输电线路相关模型研究和游戏内聊天垃圾广告识别等,涵盖医疗、工业、电力、娱乐等多个领域。
“通过AICA的学习和实践,自己对于AI技术和开发应用流程整体把握能力,对实际业务进行技术抽象的能力,设计并实现高效AI落地方案能力均有了大幅度提升”,来自浙江省能源集团的朱凌风表示。
无疑,这显示AI技术正在从“垂直”走向“多元”,通用性技术的优势也逐渐显现出来。而对于百度来说,在云、AI、互联网融合发展的大趋势下,百度形成了移动生态、百度智能云、智能交通、智能驾驶及更多人工智能领域前沿布局的多引擎增长新格局,在AI算力、算法、开放平台、开发者生态等方面建立的领先优势,正转化为“云智一体”的差异化竞争力,使之进入强劲增长的快车道。
而ACIA的培养,不仅为行业输血,也为百度蓄积的强大AI势能加快产业化落地,提供了大量的“智能路由器”。
毫无疑问,对于吴甜描述的AI进入工业大生产的三阶段来说,百度已经不满足于培养普通的应用层人才,而是输出能够提升一家企业中对技术团队具有AI影响力,能够帮助企业从整体上构建以AI为核心的技术体系,充分发挥AI技术对于业务的助力作用的高端复合型人才。
高端复合型AI人才的培养该走一条什么样的路,世界范围内都没有标准答案。但有业界观察家指出,美国、欧洲的模式都各有优势,也各有弊端。欧美模式的优势是有大量的引领级人才和开山立派的宗师级研究者,但这些象牙塔里的大师的主要标准是发布论文数量,从某种程度上离产业实践较远。
而和谷歌的深度学习框架设计为“面向所有人”和脸书的框架“面向研究者”的定位都有所不同的是,百度的飞桨一开始就明确定义为“产业级”,目的就是指向AI技术应用的产业落地,因此其高端复合人才的导向,亦明确指向产业应用。
这是一片无人的海洋,需要在寻觅中找到方向。
3
领航,指向何方?
作为一个生态体系,AI离不开优秀的开发者和优秀的社区组织,所以,飞桨大航海计划,也面向核心开发者推出了“领航”计划。
百度CTO王海峰曾多次强调开源开放的重要性,他表示,开源开放的精神内涵,已不仅是技术开发领域的协作机制,更是驱动技术创新和加速产业发展的核心动能。
开源平台是与开发者们共建的。PPDE,是飞桨开发者技术专家计划的缩写,目前,全中国的PPDE不到200位,可谓每个都是很高的荣誉。他们不仅为飞桨产品社区贡献技术力量,更是以实际行动在引领和推动开源社区的发展。
PPDE并不是一个技术荣誉,它更偏向荣誉获得者对于产业的贡献,因此,无论是推动技术应用创新的全球飞桨开发者,或是推动开源社区发展的极客或者开源项目 Committer,还是科研机构孜孜不倦钻研的科学家,或桃李满天下的高校老师,甚至是新兴科技公司创始人、CTO、技术领袖,或是编程开发与技术分享兼备的技术博主、Up主,都可以加入PPDE计划。
张林峰就是PPDE的一员。
从北大元培到普林斯顿,再次回到中国的他有了新的身份。作为深势科技这家公司的联合创始人和首席科学家,他和一群志同道合的伙伴正在以“多尺度建模+机器学习+高性能计算”的新范式,解决着微观尺度的工业设计难题。
但是相比于自己创办的企业,张林峰更喜欢聊那个“因共同热情与理想”聚集起来的开源新社区——DeepModeling。
DeepModeling开源社区始于张林峰学生时期所做的“深度势能分子动力学”开源项目DeePMD-kit。从那时起,张林峰就热衷于将基础代码、算法、架构等根据开源协议进行共享,通过社区内的群智协作,让高门槛、高壁垒的不同学科碰撞思维,打通盲点。
对于现在的创业,张林峰解释说:“可以用底层的分子动力学举个例子,比如我们需要描述一个化学反应中,各原子间出现复杂的相互作用时,以前要么是通过更为复杂昂贵的量子力学计算求解,要么就简单地凭经验拍脑袋猜会是怎样的情况。但这个问题一旦被转化到深度学习的语言里面,就变成了‘输入原子位置’,然后‘求解原子间的相互作用结果’,也就是势能面。充分考虑物理限制的深度学习模型相比传统手段更高效准确。”
作为既有深厚的开源文化,又在技术上足够灵活、拓展能力极强的深度学习平台飞桨,能和深势科技“走到一起”并不奇怪。
“科学计算以及物理模拟会是人工智能下一个非常重要的战场,在这样大的场景下,开源将是我们注定要选择的模式。”张林峰在WAVE SUMMIT 2021深度学习开发者峰会的论坛上分享分子动力学与飞桨深度学习平台的融合创新时,提出了自己的观点。
不久前,飞桨已和DeepModeling开源社区的开发者们,就深度势能分子动力学开源项目(DeePMD-kit)进行了跨领域深度合作。依托飞桨成熟的底层功能和动静统一的开发体验,开发者们实现了深度势能分子动力学模型的构建和运行。这一合作促进了双方在开发者生态上的双向融合,拓展了DeePMD-kit原有能力边界,增强了在国产化硬件和大规模分布式训练上的能力,也让飞桨支持的科学计算开源项目中增加了重量级的一员。
但PPED并不是大航海领航计划的全部。
今年四月,浙江大学召开OpenKS(知目)知识计算引擎开源项目发布会,宣布浙大与合作单位研发的OpenKS知识计算引擎取得重大进展。中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学计算机学院教授潘云鹤说,本次发布的OpenKS,作为知识计算引擎项目中的基础软件架构,定义并丰富了知识计算的内涵,是我国在大数据人工智能方向的又一次有益尝试。
“可泛化的领域知识学习与计算引擎”是以庄越挺教授作为首席科学家的科技创新2030“新一代人工智能”首批重大项目,该项目由浙江大学牵头,联合北京大学等顶尖学术机构和百度等行业领军企业联合建设。
需要划重点的是,OpenKS基于百度飞桨,可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。旨在建立一整套可服务于知识密集型行业共性需求的知识计算工具、算法与系统,帮助这些行业快速地构建行业知识图谱,提供行业相关的智能规划与决策支持。
选择百度飞桨,则是因为知识图谱技术的研发应用需要海量数据、庞大算力以及复杂的模型算法,而构建知识图谱底层平台所需的技术要求高、周期长、投入大、收益慢。而基于飞桨深度学习平台开展人工智能科学实验或产品研发,则可以避免在知识图谱系统搭建中重复造轮子。
举例来说,面对超大规模知识图谱训练,随着图谱规模增大,数据量增多,对训练框架要求越来越高。针对分布式知识计算,OpenKS系统采用飞桨超大规模深度学习模型训练技术,支持百亿图谱分布式存储和检索,还支持百节点数据并行训练万亿稀疏参数,进而学习大规模的知识图谱。
对于飞桨特别擅长的产业应用,在OpenKS的知识图谱应用场景里,如知识图谱问答和推荐等方法,飞桨不仅提供了相应的算法,还针对推荐场景提供了工业级数据处理和万亿稀疏模型训练能力,从而为打通学术界和工业界提供了有力的通路。
以上的两个例子可以看出,在充满了机遇与挑战的大时代背景中,飞桨将持续在技术上不断创新进步的同时,不断探索分布式训练技术等的边界,不断扩展AI赋能的领域,做到与开发者共同成长进步,为产学研智能化进程贡献着自己的力量。
正如王海峰所说,人工智能技术发展到今天,从科学研究的角度面临的问题越来越复杂,但从应用的角度实际上门槛在不断降低。
作为“AI时代的操作系统”、百度大脑的技术底座,飞桨始终坚持开源的路线,保持对繁荣开源生态的建设投入。
一位深度参与飞桨工作的技术大牛这样对笔者说:“如果一定要给近代科学和现代科学划一个分水岭,那就是研发的组织工作上,从研究者单枪匹马的突破到大规模协同的存在,前者需要爱因斯坦天才的大脑,后者则可以依靠更多‘非天才’的分工与协同,飞桨始终强调开源的意义也正在于此,飞桨越开放,聚集的开发者越多,中国的AI生态就越可能出现跨越式突破”。
作为一位航海者的日记,我们或许将在飞桨的未来,或者未来的未来时再品读这句话的深远意义。