“大家好,我们又见面了。”熟悉的脸庞,熟悉的声音,熟悉的那身西装,商汤科技创始人汤晓鸥如约而至走向年会的舞台中央,说累了举起手边的矿泉水饮了一口。
每年年会,汤晓鸥都会用独属他的“汤式幽默”分享自己一年来的思考和感悟。在商汤科技,“有趣的灵魂”是大家对他的评价。
“最近上映的《热辣滚烫》,我还没看呢。”话音落毕,诙谐的氛围瞬间沉重,因为在《热辣滚烫》上映两个月前,年仅55岁的汤晓鸥不幸病逝,在现实世界与大家告别。也是此时,大家才意识到这是数字人的世界。
这场跨越时空的重逢,是AI,也是爱;是对汤晓鸥卓越贡献的深深缅怀,也是对其留下的AI技术的传承与延续。
“汤老师最关注的一直是中国科技人才的培养”3月7日早上,在商汤科技会议室内,商汤科技数字空间事业群数字文娱事业部总经理栾青,对《每日经济新闻》记者回顾汤晓鸥数字人制作的过程时表示,汤晓鸥的“中国原创”理念已成为每个商汤人的使命。
“《热辣滚烫》那一段,是年会前一天徐立提出来的”
“汤老师最关注的一直是中国科技人才的培养”,这是栾青从个人角度对汤晓鸥的理解。作为汤晓鸥在微软亚洲研究院的实习生,栾青多次在采访中提及“中国原创”。在栾青看来,这是汤晓鸥生前坚持的事,也深深影响着每一个商汤人。
记者:9分钟汤晓鸥教授数字人演讲的想法从何而来?
栾青:每年汤老师在年会上的脱口秀都是大家期待的焦点。往年,汤老师会从生活和日常流行元素中总结并分享自己的思考和感悟,给我们的工作生活带来很大的启发。所以,对商汤人而言,他既是我们的老师,也是信仰一般的存在。
汤老师意外发生后,团队和他的学生们都很伤心。在筹备年会时,大家认为如果能延续传统,对每个商汤人来说都非常重要。
这件事情没有纠结,我们很快达成共识。当然,有了初步想法后首先要征求其家人的同意,他们表达认可后,我们很快决定实施了。
记者:我们想听听汤晓鸥数字人诞生过程中的一些具体故事。
栾青:徐立(注:商汤科技董事长兼CEO)对这件事的要求很高,他希望最终的呈现能超越数字人本身,有更高的还原度,而不只是一个动作、表情,在同一个地方讲述。所以最终呈现的视频中我们可以看到汤晓鸥喝水、低头还有一些手部动作,甚至是汤老师讲话间隙的咳嗽、停顿都还原了出来。
团队从1月开始策划、构思,前前后后大概用了近两个月。除了做内容和后期,真正操刀执行人物生成和声音生成的实际上就几个同事,第一版的生成花了一天多的时间,但后来又经过多次调试,总共做了五、六版,其中文案调整的最多。
记者:视频之后,商汤科技旗下数字人视频生成平台“如影”收到了怎样的反馈?
栾青:外界的看法会说好逼真,都以为是之前的录屏,直到后面《热辣滚烫》才看出来不是预录的。其实,加入《热辣滚烫》那一段是年会前一天徐立提出来的。
我们做好后首先是拿给汤老师的家人看,我们最大的认可也来自他们。看完初版后,他们很感动,说像是真的汤老师。其实我们所有人在会议室看完后眼睛都是湿湿的。
记者:你是汤晓鸥在微软亚洲研究院的实习生,你眼中的汤晓鸥是怎样的?你在他身上学到了什么精神?
栾青:在微软亚洲研究院,我有幸成为汤老师组的实习生。汤老师是一个thinkbig(大处着眼)的人,他始终坚持“中国原创”,包括他坚持基础技术的突破,创办上海人工智能实验室和浦江实验室作基础研究和原创内容研发。
他一直焦虑中国能不能有更多的原创技术出现、能不能拢住优秀人才?现在回顾起来,这是件很伟大的事。可在他身边的时候,你又不会用“伟大”来形容,只会觉得他是个很亲切、很有趣的人。
我印象很深刻,他每晚会听于谦讲相声。他常说人工智能再厉害,有趣的灵魂永远没办法被替代。他关注的始终是人,关注人比关注商业和技术多很多,他希望未来每个优秀的研究员都能坚持“中国原创”。这个理念贯穿我们每个人,是我们的一股力量,也成为每个商汤人的使命。
记者:以后商汤每年的年会,都可以看到“汤晓鸥”吗?
栾青:我当然希望能够延续下去,也许明年年会的汤老师就可以跟我们聊天、对话了。
“汤式幽默”重现背后声音素材仅20秒
过去几年发展中,数字人技术已逐渐成熟并应用于多个场景。但当汤晓鸥的声音、笑容、停顿、走动、喝水动作甚至汤式幽默都能够复现时,也意味着数字人技术实现了新的突破。
“AI复活”“AI伴侣”⋯⋯随着数字人越来越逼真、自然,大家对AI在情感陪伴层面的应用需求也随之变高。但栾青表示,技术如今还停留在视频层面,如果要实现更及时的互动、生成更复杂的动作,还要翻过“精细化控制”的技术大山。
记者:项目制作过程中使用了哪些关键素材和技术?
栾青:声音是我们第一重要的事情。汤老师东北口音,带着一种冷幽默,包括他习惯使用语气词和辅助词,都是他个人魅力的一部分。我们希望做到当声音一出来,大家就感觉到汤老师回来了。
整个制作中,我们截取了汤老师四、五段不同说话风格的声音作为prompt(提示),每段3—5秒,有调侃式的,有深情款款的,总共加起来的声音素材不过20秒。整体生成比较快,基本上放进去就能即时生成,但挑选素材花费了一些力气和时间。
这得益于我们的大模型语音,也是我们2023年底最大的突破。我们在这方面一直在投入,只是之前的数据量没有那么大,今年上半年我们将会推出更大的大模型语音。
视频方面,我们采用了汤老师前年年会不到30分钟的视频。我们认为汤老师的笑是灵魂,为了表现的更自然,我们在以前的视频里不断学习有效参数,再经过反复调整最终才抓住了那个神韵。
记者:技术之外,汤晓鸥有趣的灵魂和汤式幽默的内容是怎么生成的?
栾青:不仅仅依靠大模型学习以前他讲过的内容,坦白说,像《热辣滚烫》这样的新内容,则是凭借大家对汤老师多年的理解加入的感受性内容。这个过程中,徐立、汤老师的助理及家人都给了如影很好的建议,最终才实现了汤式幽默。
我们要不断地大模型交互迭代,不断地告诉它你要什么,最终大模型才会给我们理想的结果。
另外,我们希望内容能和公司的价值观、寄语进行结合,因此,后面《吃面条》的小品,也和商汤的“一碗汤面”有关。
以电影、音乐、小品来讲述引导理念和思想,这是汤老师一贯的演讲方式。视频中,用春晚最经典的小品告诉大家只有经典的东西才能够跨越时间,在各方面噪声非常多的情况下,更要沉下心来做事情。
记者:汤晓鸥的数字人,制作成本是多少?
栾青:我们不知道怎么去定价,单纯从价格角度来说,数字人制作不是非常高;但从我们所有商汤人对汤老师的怀念角度来说,这是无价的
素材的多少,决定能产出的内容有多丰富,所以亲人以前留下的一些视频是最重要的。如果能有几分钟连续的视频片段,不是晃来晃去的,这就给数字人制作提供了很大便捷。没有连续的片段也可以生成视频,只是复杂得多。
从技术本身来讲,我们只要十几秒、二十秒的素材就可以制作视频,只不过大家会发现可选的、可编辑的、可过渡生成的动作内容会少很多。
记者:商汤在这个过程中给予了如影哪些支持?如影未来的发展重点是什么?
栾青:商汤共享底层技术,包括加速平台、算法平台、底层训练平台等。商汤的每个垂直产业都要基于这些技术才能做好。如影业务团队未来还是会持续关注人物类的视频。
记者:过去也有AI伴侣这样基于人类情感的应用,随着人类情感需求的增加,未来面向消费端的应用会不会更多?
栾青:从使用场景来看,大家用得最多的还是视频生成和直播,本质上没有更大的区别。确实有人看到之后,提出了复活自己家人、偶像的需求。
随着数字人越来越逼真、自然,AI确实可以满足更多情感陪伴层面的需求,但想要实现综合大模型的对话互动,实时生成对应的动作,现在的视频生成技术还做不到。比如你能通过描述,控制数字人走过来,但没办法还原他撩头发的小动作和小表情。
现在海内外各类视频生成软件都没达到精细化控制,只能表达概念,这对创作者来说也比较痛苦。这也是我们接下来想要努力攻坚的突破点。
万元左右“复活”亲人,数字人的制作与使用理应造福人类
汤晓鸥以数字人的形象出现,是惊喜,是震撼。
“复活”想见之人不再遥不可及,当每个人都能承担起数字人制作的费用后,思念之情是否会被利用,是如影当下最为关注的事情。
数字人的制作与使用理应造福人类,而不是成为伤害与痛苦的源头。
记者:汤晓鸥数字人视频出来后,你们有没有接到类似“复活”家人的诉求?
栾青:我们的客户、个人都有一些找了过来,暂时都还在对接,没办法透露太多的细节。
商汤在如影数字人的方向,更多还是TOB(面向企业)的服务。我们去年做了一个“如影繁星”计划,希望扶持各行各业的伙伴,包括金融、教育医疗、银行保险等。至于你们问到的和殡葬馆的合作,其实还要看上下游产业链的融合,我们究竟要去哪个行业其实并不关键,关键的是解决了大家什么样的问题。
之前我们看到有经纪公司做明星的复活数字人去陪伴粉丝,我们也在慢慢尝试在关键节日,让亲人或者偶像的数字人生成祝福型的视频。我们希望技术能够赋能各行各业。
记者:未来有没有可能,普通用户也能用较低的成本,定制逝去亲人的视频?
栾青:普通人想做,肯定是做得起的。我们现在有比较广泛的渠道,我看到新闻1万元左右就能“复活”亲人,大概就在这样的范围,甚至有些简单的视频价格可以更低。
我们已经有完整的工具链可以让大家制作数字人的祝福视频,技术上已比较成熟。但是希望有互动、更深入的服务,比如让大模型学习到家人大脑的想法,还需要技术的不断攻破。
记者:越来越多复活数字人的视频出现后,大家对于技术伦理也有了担忧和争议,这方面商汤有什么样的思考?
栾青:我们在前年推出数字人的时候,第一步是跟网信办旗下的几大所一起联合推出“可信数字人”的标准。我们在制作数字人时,首先要有他的声明,如果不是他的家人或者当事人授权的运营团队同意,是不可以制作这个数字人的。
我们现在看到有些非法机构制作数字人,其实用了非法的方式获取资料。技术一旦被公开后,总有一些人想方设法去做一些非法的事情,我们技术公司对此无法控制,但是我们有一个鉴定机制,商汤平台上制作的数字人,有看不见的编码在里面,如果是非授权的数字人,我们可以立刻发现。
当前国内几大公司的数字人都在“可信数字人”标准内,所以大家不要轻信鱼龙混杂的公司去制作自己的数字人,是比较危险的一件事。
另外,AI复活逝者,可以做到形象还原、声音还原,但是情感怎么复制?会不会对家属带来二次创伤?数字永生后会不会对人的身份认同发生变化?大家的顾虑很多,我认为这是这么多年来逝者数字人没有形成产业的重要原因。
大产业未来如何发展,我们也在观望,对真人的复刻其实已经进入深水区。
中国AI企业的发展,具有划时代的使命感
进入2024年,AI竞争的牌局已然明朗,国内早已跨越了单凭资金就能轻易购得大模型技术的阶段,中小玩家因体力不支逐渐黯然离场。
理性背后,是实力尚存的庆幸,也有坚定前行的使命。大家都鼓起勇气做好了长期投入的准备,决心留在这场没有硝烟的战争中。
记者:数字人方面现在的市场竞争如何?
栾青:几年前大家就在做传统的数字人,市场竞争非常激烈,第一技术比较成熟,第二应用场景明确。
不过,现在的竞争进入到深水区了,越来越多的人意识到数字人可以做什么,哪些做不了,现在我们更多需要考虑的是服务,如何真正解决大家的问题。现在的视频生成效果或者直播动作,会觉得很假,用着用着不想用了。我认为当下阶段的关键在于,生成型大模型的自然度和真实感的进一步突破和跨越。
我个人是乐观主义者。整个AI行业中,当然有乐观派和悲观派,但综合来说大家还是认为AI能够带来生产力的改善,给人类带来不同的体验。我认为,在当前场景下,AI仍然是工具。虽然它可以生成有创意的内容,但目前为止它更多的工作内容是演绎和对现有内容的总结。下一步会是什么,大家在不断的迭代研发中,也保持审慎的态度。
记者:Sora爆火,你作为从业者,看到Sora后的第一反应是什么?
栾青:真实度上了一个台阶。这个真实度的细节,我们以及一些市场竞品也能做到差不多,transformer的结构来做这件事也不是Sora最早提出的,但确实大力出奇迹,它做到了更长的时长。
从实验成本、实验周期、算力复杂度来讲,都需要巨大的投入,大家的突破肯定晚于Sora。现在我反而觉得大家都被拉到同一个起跑线上了,大家知道做这件事是可行的,那么中国企业一定会在很短时间内做出类似的产品来。
Sora为大家带来时长的突破,那么真实性和物理一致性也要维持得更长。可是AI真的理解物理规律吗?我觉得没有。
记者:接下来大模型的突破,你认为会是哪个方向?
栾青:视频必然是今年的主题,但永恒不变的主题一定是大脑。我们不认为大模型真正形成了智能大脑,行业仍要再突破几轮才行。
记者:你心中的完美AI是怎样的,距离你心中的完美AI还有多远?
栾青:我心中的完美AI视频生产产品,是让每个人都是自己的导演,它能更可控地做出非常多的视频,比如张艺谋说完想法后,AI能直接生成一部电影。每个人都是导演,那每个人都可以做出心目中想要的东西。
目前大概只做到了30%,还是属于很早期。想要AI生成复杂的场景,比如让它做电视剧、电影还差得远。总结来说,概念性的表达够了,交互性的表达差很远。假以时日,一定是可以实现的。
记者:大力发展AI,有何关键意义?哪些公司能活到最后?
栾青:对于中国的人工智能来说,如果我们不能在AI方面有足够的积累和突破,可能就是其它国家先突破。大家有种使命感,希望在技术上不断深入研究,做到领先世界。
AI领域还在投入的阶段,哪怕OpenAI,也还没有太多商业化,我认为未来很多年都还要继续投入。OpenAI最大的价值是它验证了“大力出奇迹”,大部分公司包括谷歌,可能都没有勇气做这件事。
早期投入很重要,现在国内市场,不是财力就能买到大模型技术。做AI,要先知先觉有储备,这个行业已经不适合中小玩家,容易会被耗死,接下去慢慢有越来越多的公司会被淘汰。做大模型,关键是拼综合实力,包括底层架构、人才储备等。
记者:现在有足够的基础设施储备去支撑商汤继续在AI领域做技术性的突破进展吗?
栾青:商汤在2019年建设大装置,算是比较幸运的一件事。目前我们拥有亚洲地区比较大的算力等基础设施储备。中国AI行业的发展,需要我们这种大模型公司,一起在上下游产业链迭代突破,这也是国内众多优秀企业共同的愿望。