今年,AI顶会CIKM的时间检验奖颁给了京东何晓冬博士创立的DSSM双塔模型,而这是他10年前的一个研究成果,也是今天智能推荐技术的基石模式之一。
DSSM并不是本文讨论的焦点,但它是一个窗口,它可以透视在10年前和今天,人们是如何用不同的方式去对待AI的创新,以及由此带来的截然不同的效果。
——导语
01经得住时间检验的技术老友何晓冬最近又拿一新奖,向来低调的他,也十分欢喜。我和他特意多谈了几句,引发了这次对他的访问和一些思考。
这个奖关系到一篇10年前发表的论文,论文的主题是关于DSSM 模型(也就是双塔模型)的提出(论文名为:基于点击数据学习用于网络搜索的深度结构化语义模型)。
所谓善战者无赫赫之名,在网上搜索DSSM模型+何晓冬,结果并不太多。
其中,大部分搜索结果只是提及,DSSM是2013年由微软在CIKM上发表的一个贡献。
CIKM,就是信息检索和数据挖掘国际学术会议 CIKM (International Conference on Information and Knowledge Management) ,是AI领域的“顶会”之一。
较少有人曾经由双塔模型而注意到何晓冬,可能和这样一个事实有关——就是这篇论文,当时过于超前,也十分的精短。
“2013年的时候,学界对这个(双塔模型)的工作,是有怀疑的。包括论文写出来后都还有些怀疑。我们论文最开始投是一个全的长文,最后审稿人给的意见是觉得选题很一般,建议我们要不投个短文试试,所以我们就改成短文投出去。可能因为是这个原因,投出去当时没有引发广泛关注,后面也陆续第一时间应用到我们在微软的工作里”,何晓冬回忆说。
但是,站在2024年这个角度再看过去,结果就完全不同了,无论在哪个AI开发者社区,你都可以读到类似以下的一段话——
DSSM在业界搜索引擎广告推荐方面的影响力,目前来说是超过其它几乎任何一个模型,基本上统治了召回/粗排阶段。在大模型领域,它更是无人不知。
十年窗下无人问,一举成名天下知。
而此刻的何晓冬,早已经从大洋彼岸的微软研究员,变成了今天的京东探索研究院院长、京东科技人工智能业务负责人。
目前波澜壮阔的数字化、智能化的热浪,使我们产生一种错觉——那就是只要是新的、好的技术发明,很快就能用于实践,很快就能够从实验室走向产品化、从产品化走向商业化。
这种认知是谬误的,或者至少是有偏差的。
一方面,经受得住时间和实践双重检验的论文,并不是那么多。
另一方面,即使一篇论文或一个科技成果,有很重要的理论价值和应用价值,但它能够被应用起来,也需要天时地利人和。
给大家讲两个小故事。
一个是我们现在每台智能手机、每台笔记本电脑里都装着的SSD(俗称闪存盘),给人的印象是这几年才推广的。但事实上,闪存盘这个发明的理论基础,1967年就有了。但时间流转到20年后,才由日本东芝的一位研发人员——舛冈富士雄发明了NOR FLASH,一种划时代的产品。
结果呈报上去,东芝根本就不重视,因为东芝当时的注意力都在DRAM方向上(一种内存)。
结果这位科学家又不屈不挠的搞出了NAND FLASH闪存,这就是我们今天所用的固态硬盘的基础介质。
没想到,这次东芝倒是有所表示了:奖励了他几百美元奖金,然后可能是觉得他有些刺头,把他调到了一个边缘岗位上,又是若干年。
直到在东芝度过了23年,从28岁变成51岁之后,舛冈富士雄选择了辞职。这时候闪存已经是一个千亿美金市场。
舛冈富士雄在2006年起诉了东芝,并索赔10亿日元。但结果很糟糕,他只拿到了8700万日元的和解金,折合下来只有几十万美元,而这本来是一个可以问鼎诺奖的发明,可以为发明者带来无穷的财富和荣誉。
其实,科学家的优秀科研成果转化,靠个人努力从来是艰难的。
我们可以看看刚刚获得2024年诺贝尔物理学奖的“深度学习之父”辛顿的例子,辛顿在2006年在深度学习方向的研究取得重要成果后,其实对如何推广这项技术也感到茫然。
于是,直到2012年,他才成立了一间小公司,但却对如何后续发展,并无做好准备。
辛顿的幸运是,由于当时人工智能产业的势头已经开始明显的抬头,很多企业都在密切关注能推动人工智能技术重大突破的新理论,这使得辛顿的公司在几乎没有任何实际业务的情况下,就得到了来自百度、谷歌的竞买。
这其中,最关键的时刻并不是辛顿在2006年做出的研究,而是谷歌决定请辛顿加入。如果没有谷歌平台上诸多场景对辛顿的成果的验证、实践和孵化,深度学习是否还有今天这么高的地位,谷歌是否能拿出一系列基于这个理论的产品,都很难说。
辛顿的戏剧性经历说明了,在技术转向应用的过程中,充满了种种的不确定性。即使在商业体系、技术体系更为成熟的地方,科研人员在推广自身研究并付诸于产业应用的路径,也仍然是不平坦和充满随机性的。
这也说明了,刨除纯粹的底层理论性研究外,检验一个技术是否是真正有价值的技术,时间只是表征,实际上还是真正在工业化场景里的应用价值,是对现实世界的变革的推动。
而这,可能才是何晓冬辞别美国的首席研究员、教授、博导等赫赫头衔,愿意回国来到京东的原因,因为这里有他想要的转化环境和条件。
“对于科研工作,而我不喜欢这种‘发完就不管’的做法,我希望看到它在真实世界里创造出价值”,何晓冬说:“而京东一开始就有这种氛围”。
02范式转换:从科学创新到产业创新何晓冬的履历其实比较简单,清华本科、中科院硕士、密苏里大学哥伦比亚分校博士,然后加入微软,一直从事语音识别、语言理解、图像与语言多模态信息处理等领域的研究,然后于2018年加入京东,担任副总裁,主管人工智能方向的技术和产品研发。
学术界的评价是,何晓冬是本领域世界级科学家之一,吴文俊人工智能杰出贡献奖获得者。他发表了200多篇论文,引用5万余次,并多次获得ACL杰出论文奖、IEEE SPS Best Paper等奖项。
这好像是一条从学霸到顶级学者,再从顶级学者到产业创新的重要人物的必经之路。
但是,我认识的太多AI牛人,走通了从学霸到顶级学者的路,却没有走通从顶级学者到产业创新的重要推动者的路。
这里面有太多的干扰项,但我觉得主要因素就是两个——个人意愿和工作氛围。
从个人意愿来讲,何晓冬选择来到京东,就是希望做出一些改变,对真实世界的改变——他在微软研究资源和环境宽松,整体上偏于纯研究,离应用比较远。“来京东是真正的上一线了”,他兴奋的说:“而且这里有非常丰富的场景,是能够做出一番成果的。”
从企业环境来讲,我见过的一些科学家进入企业后,往往不乐于带团队、背业绩,还是希望有一个相对简单的研究环境。
但何晓冬相反,他和我讲过,一开始就要带团队,而且要背业绩,虽然最开始也是如履薄冰,但“心里是欢喜的,因为你知道你所研究的技术有可能真正改变这个行业”;他说这话时,是由衷的欢喜——因为他在以前的环境里的任何研究,很多时候基本走不到能听到真实用户反馈的那一步。
被称为科技大佬必读书的托马斯·库恩的名著《科学革命的结构》里,非常清楚的描绘了这样一种场景,他认为——科学技术的突飞猛进催生了一系列的理论与技术创新,促使科学技术日益整体化,学科间相互交叉渗透的趋势大大增强,预示着人类文明史和认识史进入一个重要的时期——以往的科学更多地表现为个体劳动;现代科学技术的发展,促使这种劳动方式发生改变,它需要一群人一起努力,让科学制度化、专业化和集约化的程度大大提高。
而我也非常清楚的记得,何晓冬和我说过一番意思完全相近的话:“现在的AI研究,已经不是几位科学家在实验室就可以完成的了,而需要许许多多的人的跨界协作。技术在不同场景会产生不同价值,所以研究技术也需要许许多多的业务场景,这都是单纯在学术界得不到的,这也是吸引我以及类似技术工作者来京东检验我们的成果,甚至是检验真理的原因”。
03ai加速落地,场景成关键因素而让他在京东坚持下来的一个原因是,这里的研究和应用场景的联动,实在是太快了。
前面说到的双塔模型,何晓冬在做出理论设计、发表论文后,非常渴望得到在真实环境中的检验, “当年,经过一个全球副总裁的推动,才把这个技术呈现给了业务部门,中间历时一年。应用了之后产生效果”,何晓冬说:“这也是我来京东的原因。”
在京东,何晓冬的团队是一群更年轻、但更有欲望做出变革的年轻人。
何晓冬团队有很多80、90后,他们有的进入京东后,依旧聚焦自然语言处理(NLP)、语音识别(ASR)等AI技术的研究和产品研发;也曾有一段时间,这帮年轻人一边开发,一边仍执着于拿着自己研发的算法和论文,在各种排行榜上打榜。
然而,当他们拿着冲榜成绩以及国际会议和期刊论文,打算说服业务买单时,“无力感扑面而来”。再厉害的学术成绩,也要证明自己有应用价值。令他们印象深刻的是,当时业务反问的一句话:“可以为用户带来什么好处?”
后来,这个年轻的NLP团队开始对当时的“发现好货”频道进行技术攻坚,这是一个需要大量优质文案的板块,内容的好坏会直接影响用户种草下单的欲望。
幸运的是,在他们技术攻坚的过程中,不仅有极大的算力支持,还有海量、高质量的真实用户反馈信息,这是形成研发闭环的至关重要的环节。
同时,更重要的是,大半年的项目周期,技术上有几十个卡点,上下游涉及的成员从不做甩手掌柜,每周一次的例会,更像是密集攻坚的学术研讨。
不到一年时间,这个团队就率先攻克了多个技术难关。靠“发现好货”项目,团队还拿到了京东的技术金奖。
04应用推动创新是AI发展的第一性原则吗?目前,AI究竟该用什么路径发展,已经成为行业里一个争论的焦点。
一部分人认为,要想做出核心突破,就应该专攻底层技术,因为只有底层技术的积累,才能有上层应用突破的可能。
但这种路径的弊端是,AI发展太快了,以至于没有人能够说清AI现在的“底层技术”到底是什么,方向到底是什么。
“ChatGpt4出现,ChatGpt3.5就被人抛弃了。如果只是押宝某个技术方向、某个模型,在强手如云的行业里,随时会出局。除非你是顶级巨头,能同时去赌多个方向。但即便如此,这也不能保证你就是赢家。Chatgpt不是由拥有数万研发人员的谷歌做出来的,而是由只有150人的openAI团队做出来的,这个案例还不够深刻吗?”,一位AI的资深大咖这样对笔者说。
另一种观念认为,AI业者,一方面要保持对底层技术的敏感性,另一方面主要是关注应用方向,比如京东,结合自身的产业场景做各种AI+,反而收获累累。
任何业务的成功,都体现在是否遵循了符合自身规律的第一性原则。
比如特斯拉,在推动电动汽车的时候,远远没有今天如此发达的供应链,也没有一套现成的规律可以摸索。
但他们就是选择了自主建厂、自行研发电池系统、拿掉激光雷达……换言之,特斯拉成长背后遵循的第一性原理,就是用技术降本,将产品卖给更多人,获得更多利润,继续投入技术研发。
而京东AI的第一性原则就是问题导向、痛点导向, 跳出纯技术、纯学术的固有思维,针对现存矛盾突出的问题,探索本质,思考解决之道。
从挑战来看,自然语言处理是目前AI最成熟的领域之一,要想在强敌环伺之下杀出重围并不是一件简单的问题。
而从真实结果来看,这几年京东在AI上的进展,是肉眼可见的,他们在智能客服、智能外呼、数字人、AIGC营销等方面的进展都是巨大的。得到了用户用真金白银买单的认可、也拿到了中国AI最高奖——吴文俊奖。
没有什么比这个更能证明,京东的AI研究走在一条以应用反馈式创新驱动技术研究,再通过大量的实战积累理论高度的闭环之路。
“在解决AI应用落地的过程中,京东成为了AI大规模落地应用的一个很好的土壤。技术文化既有导向性又宽容度,这种氛围可以吸引更多的科技人才,京东也会成为AI前沿技术落地创新的策源地”,何晓冬说。