关于豆包实时语音大模型
1、字节豆包APP今天更新了7.2.0版本,可以体验实时语音功能。说实话,我并没有觉得这有什么超预期的地方。
2、实时语音理解和生成,端到端的语音对话,这在GPT-4O时就已经推出了,豆包在中文语音的表现力、情绪承接方面有所提升。
3、我更期待字节推出具有视觉理解能力的交互型多模态大模型,字节在12月18日的火山引擎大会上说此类模型会在1月份商用,我们对此充满期待。
4、具有视觉理解能力的多模态模型是AI眼镜、AI玩具、AI手机等更广泛应用的基础,视觉的交互性远比语音广泛的多。
5、SOC相关标的:恒玄科技、瑞芯微、乐鑫科技、星宸科技、安凯微等。
幻