微软小冰再进化之路:学会使用比喻、提高唱歌技巧、朝向自我完备

科技湃 2019-11-22 12:15:05

文/刘恩彤

今年8月,第七代微软小冰正式发布,当时的发布会上,微软小冰工作室展示了其在文本、声音与视觉方面的创造力,包括跨越多种演唱技巧的多个声音模型、多种绘画模型等。

  

同时,第七代微软小冰的部分核心技术也得到了升级,在第六代微软小冰突破了能够让框架兼容各种各样的交互形态去支持Dual AI战略的各种要求后,获得了源源不断的新落地场景,这些落地场景又促成了第七代小冰今天在对话引擎、交互感官上的技术突破。

11月21日,微软(亚洲)互联网工程院在北京微软总部召开了微软小冰2019年年度研究进展分享会,微软小冰三大首席科学家——微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威、微软小冰首席语音科学家栾剑分别介绍了微软小冰今年在自然语言处理、语音学研究、计算机视觉和图形学、多模态生成等领域研究进展。

  

  

微软小冰首席NLP科学家 武威:朝向自我完备的对话机器人

“首先我认为一个能够自我完备(Self-Complete)的对话机器人应该拥有几项能力。能力一:学习。作为对话机器人,这样一个人工智能的代表性产品,当然应该有这样的能力能够去学习;能力二:能够自主的管理。一个更高级的形态就是说我单轮表达管理做好了之后,我就能够把控整个的对话流程;能力三:连结。对话机器人能够连结散落在世界上的多模态的知识。“武威认为,这三项能力贯穿起来就构成了一条纵线,我认为这条纵线贯穿了对话机器人这些年来,甚至可能是未来一段时间整个的研究与发展。

  

据介绍,共感模型背后包含了决定小冰说什么内容的回复模型与决定小冰怎么说的策略模型,这两个模型结合在一起就把微软小冰从原来基于上下文直接产生回复的模式,变成了从上下文到决策,然后再根据这个决策来决定自己说什么。

凭借着自主管理能力,小冰可以通过问问题快速了解用户意图,进行商品推荐,微软在日本和美国对小冰的这种能力进行了测试,发现推荐转化率高达68%,即100个和小冰聊天的客户中会有68个人进店查看小冰推荐的商品。

微软在今年2月份,已经在日本公测了多模态交互功能,为小冰在日本的分身凛菜增加了视觉能力。当地记者携带着配有摄像头的“日本美女高中生”凛菜,在水族馆中游览,在测试中,凛菜在识别出当前画面的同时,也能就当前画面与用户展开深入交流。例如看到鱼之后,会联想到鱼的大小、颜色、种类与鱼翅(本质吃货?),让用户获得了近似真人的聊天体验。

微软小冰首席语音科学家 栾剑:如何更自然地合成歌声

11月6日,微软小冰在微博上分享了她在日本的分身歌手凛菜(りんな)在演唱会翻唱的《惑星ループ》,正式宣布其解锁了歌词、舞台表演歌声、舞台表演互动等能力。此外官方还放出了小冰本冰翻唱的大热歌曲《野狼disco》,官方表示这首《野狼disco》,完全由人工智能技术自动生成。为了能跟大家一起画个龙,小冰还用上了尚未公开发布的黑科技—粤语和说唱模型。

分享会上,栾剑谈到了让小冰学习唱歌的原因,他表示小冰推出后经过努力语音合成领域一些大的问题已经解决了,于是就开始寻找更有挑战性的课题,此时比说话门槛高、情感更丰富、人们喜闻乐见的唱歌就自然成为了微软的下一个目标。

  

据了解,唱歌包含了发音、节拍、旋律三大要素,机器可以通学习人类的歌声和识别五线谱两种方式进行学习。为了为小冰提供素材,微软甚至与一家拥有十几年历史的唱片公司合作。但这里遇到了一个教材问题。

唱片公司很少保留歌手清唱的录音,但对于机器而言清唱的干扰最少,最适合学习,为此微软甚至发表了一篇论文,提出了输入原始波形、全卷积网络+残差连接、软分类标签3大创新,实现了从伴奏中把人声部分准确地截取出来的能力。

后面的问题就是如何更自然地合成歌声,这方面微软选择了比传统单元拼接更自然的参数合成法,并且为了进一步提高小冰的”唱歌技巧“,微软选择了用一个模型预测三大要素困难模式,最终使得小冰的歌声自然度和流畅度有一个明显的提升。

据了解,除了专业的歌唱领域,会唱歌的小冰还能覆盖到儿童机器人以及儿童陪伴APP中,会中微软工作人员透露小冰该领域份额高达70-80%。

微软小冰首席科学家 宋睿华:3000个形容词扩充小冰比喻能力

据宋睿华介绍,最近几年,微软小冰团队在各大国际会议上发表了48篇论文/文章、获得了包括全双工AI技术在内的72项专利。当前小冰已经在搭载在4.5亿台第三方智能设备,平均对话轮数(CPS)达到23轮。

  

宋睿华分享了小冰在比喻、联想方面的进展,以及如何让小冰像人一样能将故事理解成画面。

“比如说我们把时光比成墓碑,当别人问小冰‘这是为什么’的时候?小冰说‘因为它们都是那么的荒凉’,这样的一种比较简短的联系也可能会人们感觉到新颖。这个题目出来的时候,首先我要求他们要考虑的喻体,就是把爱情比作什么,比方说爱情,我们当然是不限于爱情做本体,喻体是一个八竿子打不着的一个概念,也就是平时人类并不这么比,这样才会比较新颖。”宋睿华介绍,为了帮助小冰学会“比喻”这项技能,他们从复杂的诗歌中挑选了6大类,每类122个主题,并通过小冰聊天日志过滤出了包括爱情、内心、世界、母亲、美丽、人类在内的96个常用比喻概念。随后从1000个常用词中选取了3000个最常用的形容词扩充小冰的比喻能力。

比喻句的基本结构是“XX像XX”,其中前者是比喻的本体,后者是比喻的喻体,说好一句比喻的重点无疑在如何筛选本体和喻体上,并且还要为这句比喻提出一个合理的支撑点,避免出现“恋人像报表,都十分可靠”这种奇怪的比喻。为此小冰会对比本体与喻体的可能存在的相关词汇。

比如爱情与国足,它们共同的相关词汇可能有未来、虚幻,那么小冰就可以作出“爱情就像国足,未来都是虚幻的”这样自然的比喻句。

第七代微软小冰:全球最大的跨领域人工智能系统之一

经过数次迭代,2019年8月15日,小冰已进化至第七代。第七代微软小冰已成为全球最大的跨领域人工智能系统之一,产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众,在交互场景大幅度拓宽的情况下,微软小冰与用户的单次平均对话轮数(CPS)仍保持在23轮。

  

据了解,第七代微软小冰升级了微软小冰的部分核心技术,主要包括核心对话引擎、全双工语音及多模态交互感官等。其中:

a. 全新的对话引擎:经过检索模型、生成模型、共感模型的历次技术迭代,本次升级的对话引擎实现了从“平等对话”向“主导对话”方向的跨越。它不仅能提高开放域的对话表现,也能在垂直领域发挥高转化率的效果。以在美国进行的“在线零售垂直领域”测试为例,新的对话引擎向商品页面转化率高达68%,比上一个版本的转化率提高21%。

b. 全双工语音交互感官:微软小冰于2017、2018年分别上线了全双工语音交互感官的传统电话及智能音箱设备落地,此次新增车载场景,可大幅度提高人工智能助手与驾驶员及乘客的交互体验,促进人工智能从智能中控向“虚拟乘客”体验标准的转化。

c. 面向未来的多模态交互感官:是一种融合了全双工语音交互、实时视觉与核心对话引擎的全新交互感官。它能够实现用户与人工智能同时边听边说边看的交互体验。继去年宣布率先开始多模态感官的研发后,今年2月,微软日本小冰团队已邀请当地媒体进行了公开测试。该感官有望成为5G时代的全新交互形式。

在微软小冰商业化的进展方面:

a. 得益于在ToB领域的丰富经验,及丰富的技术产品积累,微软小冰商业化进展迅速。

b. 目前已落地的商业客户覆盖金融、零售、汽车、地产、纺织等十个领域,客户包括万科、万得资讯、万事利、中国联通等。

0 阅读:37

科技湃

简介:科技前沿的观察者、评论者、记录者。