元宇宙翻译真的来了!扎克伯格开发出无文字语言AI翻译系统!

雅言翻译 2022-10-27 14:54:18

世界上大约 7000 种已知的语言中,有 40% 没有标准的书写系统。这些没有文字的语言给现代机器学习翻译系统带来了一个独特的问题,因为翻译通常需要先将口头语言转换为书面文字,翻译后再将文字还原为语音。不过 Meta 公司 10 月 19 日宣布,已经通过其最新的开源语言人工智能(AI)解决了这个问题。

此消息一出,意味着新的翻译时代即将来临。而扎克伯格在今年二月份就在努力为其元宇宙中的语言构建由人工智能驱动的通用语音翻译器(AI-powered universal speech translator),它将与数字世界中的每个人一起工作,借助人工智能提供广泛使用的语言的同声翻译。”

扎克伯格认为:新型人工智能技术将帮助我们以任何语言与任何人交谈。这一段雅言翻译的公Z号早已写过,如有兴趣可搜索查看。

元宇宙翻译来了

Meta AI 研究人员必须克服许多来自传统机器翻译系统的挑战,包括数据收集、模型设计以及准确度评估。其中一个重大障碍在于是否能够收集到足够的数据,由于闽南语是所谓的资源匮乏语言,未有足够的训练数据。

此外,能将英语翻译成闽南语的翻译人员相对较少,因此更难以收集数据资料并加上注解来训练模型。为此 Meta 利用中文作为中间语言,以建立伪标签和人工翻译,也就是说先将英语(或闽南语)语音翻译成中文文字,接着再翻译成闽南语(或英语),然后新增至训练数据中。

另一种产生训练数据的作法是语音探勘,Meta 使用预先训练好的语音编码器,便能通过编码方式将闽南语语音嵌入内容加入到其他语言的相同语意空间中,而无须取得闽南语的书写文字。闽南语语音可以和拥有相似语意嵌入内容的英语语音和文字配对。接着 Meta 从文字来合成英文语音,产生平行的闽南语和英语语音。

Meta 公司在一份声明中说:“该翻译系统是 Meta 人工智能的通用语音翻译器项目的第一个里程碑,该项目专注于开发人工智能系统,提供所有语言的实时语音到语音翻译,甚至无文字语言。”该项目正致力于开发更多实时语音到语音的翻译,以便元宇宙居民更方便地互动。

Meta 说,以前大多数人工智能驱动的语言翻译工作都集中在书面语言上,但其目标之一是翻译更多缺乏正式书写系统的语言。据 Meta 公司称,目前有 7000 多种语言,但“超过 40% 的语言主要是口语,没有标准的或广为人知的书写系统。”

扎克伯格也讲到,Meta 接下来将对外开放名为「LASER」的自然语言处理工具,所打造 SpeechMatrix 大型语音对语音训练模型,让更多研究人员可以建立众多无法通过文字记录的语言,让更多语言可以通过人工智能方式翻译成其他语言。

为了开发这种新型语音翻译系统,研究人员必须克服传统机器翻译系统的诸多难题,包括数据收集、模型设计和评估。全球语音翻译器必须学习数百甚至数千种语言,并获得从一种语言实时翻译到另一种语言的能力。项目背后的工程师需要搜索训练数据,对于很多在网上不流行的语言来说,这些材料并不易得到。

到目前为止,虽然机器翻译无法完全做到信、达、雅,但翻译结果的准确性对于一般应用场景来说已经足够。在可以预见的未来,人工智能将会是发展的重要阶段,机器翻译也将成为重要的项目之一。

但不管怎么说,人工翻译还是不会因此被迫“下岗”,市场上对于人工翻译的需求永远还是最需要。

0 阅读:8

雅言翻译

简介:遍布全球的母语翻译官