用AI进行生产级录音转写AI可以搞定速记吗
AI这么牛,把录音转成文字应该很简单了吧?
很遗憾,还是够呛。但尽管如此,AI还是给我们提供了一些新思路。
Ugo Pradère分享了他是怎么用Gemini模型搞定生产级录音转写的实战经验,说不定能给你些启发:
一、探索Gemini Flash 2.0的音频转写方案
团队向Gemini同时提供访谈背景和音频文件,要求输出结构化的统一格式文本,并提供了高度精准的转写要求设定。
可惜的是这种方法在短音频测试效果理想,但长文件处理时暴露出严重问题...
二、长音频处理与Token限制的挑战
处理超过几分钟的音频文件时,模型约束、Token限制和输出可靠性等问题相继浮现:
- 长音频转写时,输出令牌数很快超出上限,迫使团队开发循环调用机制
- 大数据量的循环会显著降低LLM输出质量,尤其影响时间戳精度。
- 模型会随机陷入循环,重复输出相同内容数十行,导致整段转写作废。【图2】
三、转向分段音频转写方案
由于上述的问题,团队尝试将音频分段,以保证转写的质量。
音频分段方案有效解决了时间戳误差和成本问题,避免循环调用导致精度衰减,还降低了单次处理成本。
四、合并分段与保持内容连贯性
音频分段时,直接切割会导致切分点处的内容丢失。因此必须尝试重叠分段切割,并在合并流程中优化重叠大小。
然而,由于分段之间没有明确的切割点,纯算法合并变得不可行,只能选择借助LLM进行合并。
初步测试很快证实,当重叠部分包含完整句子时,LLM的合并效果更佳。
实验表明,30秒的重叠时长已足够可靠。
尽管重叠分段转写文本,被送入LLM后又再次触发了Token限制,迫使团队继续采用LLM循环调用。
值得肯定的是,分段方案显著提升了时间戳精度:一小时以上的转写仅产生5-10秒最大偏移量。
最终,团队要求LLM以“结束分段”的时间戳为基准进行融合,并按每句1秒校正偏移,实现了无缝衔接并保持全局时间戳准确性。
五、分段转写文本的合并与完整重构
鉴于之前出现的种种情况,团队决定单独执行文本合并操作。
具体实施时,每个10分钟的转写文本按片段起始时间划分为三部分。
将首尾重叠段成对提交合并后,输出质量显著提升,实现了分段转写文本的高效可靠合并。
该方案使LLM输出完全规避了先前循环过程中出现的错误,表现出极高的可靠性。【图3】
六、完整转写重构
最终阶段仅需执行分段转写重组:通过算法将主体内容段与合并重叠段智能拼接。
受限于篇幅,文章有所删减,欢迎点击链接观看全文: