微软AzureAI语音服务推出虚拟人形象支持文本转视频功能

8月23日，微软宣布全面推出其 Azure AI 语音服务中的新功能——Text to Speech Avatar。这项创新技术使开发者能够将简单的文本转换为自然说话的人类视频，为用户提供个性化的虚拟人形象。该功能的引入标志着微软在生成式 AI 语音和视频技术方面的又一重要进展。

Text to Speech Avatar 功能专注于为开发者和企业提供创建虚拟人视频的能力，其视频输出达到 1920 x 1080 的高清分辨率，每秒 25 帧。开发者可以使用 Azure AI 文本转语音技术将文本内容转化为逼真且自然的说话视频。这项功能特别适用于需要互动视频内容的应用场景，如客户服务、在线教育和营销等。

Text to Speech Avatar 的关键特点包括：

1. 自然语音生成：基于 Azure AI 文本转语音技术，生成自然且真实的人类说话视频，使虚拟人形象更具吸引力和可信度。

2. 多样化的人物预设：开发者可以选择不同的人物预设形象，以满足不同场景和用户的需求。

3. 批量和实时合成：支持通过批量合成 API 异步或实时合成文本到语音人像视频，提高开发和内容创作的效率。

4. 内容创建工具：在 Speech Studio 中提供的内容创建工具使用户无需编码即可轻松创建视频内容，降低了技术门槛。

5. 实时对话功能：Speech Studio 还提供了实时聊天头像工具，支持实时人像对话，增强了用户互动体验。

微软表示，Text to Speech Avatar 功能将根据视频输出的时长按秒收费，确保企业可以根据实际使用情况灵活控制成本。目前，这项服务已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区上线，未来有望在更多地区推广。

世良情感网

微软AzureAI语音服务推出虚拟人形象支持文本转视频功能

视野遍科技天下