攻破AI视频大模型训练挑战！火山引擎送上“神助攻”，方案已应用于豆包，披露视频云出海全景图

作者 | ZeR0

编辑 | 漠影

智东西10月15日报道，今日，火山引擎在视频云技术大会上发布大模型训练视频预处理方案，助力解决视频大模型训练的成本、质量、性能等方面的技术挑战。该技术方案现已应用于豆包视频生成模型。

火山引擎还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速，更加轻量、通用。

同时，火山引擎推出跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案，从视频的生产端、交互端到消费端，全链路融入AI能力。

去年推出的字节自研视频编解码芯片，经过抖音集团内部的实践验证，在同等视频压缩效率下，成本节省了95%以上，还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。该芯片将于近期正式对外开放测试，招募首批种子用户，共同探索商业价值的可复制性。

火山引擎也与出海先锋携手，从趋势、技术、玩法等角度共同探索出海新增长机遇。火山引擎视频云国际业务负责人梁建在会上发布了出海全景图。

火山引擎总裁谭待在致辞时谈道，汹涌而来的技术浪潮带来前所未有的挑战：1）生成式AI带动视频数据指数级增长，对计算效能提出严峻考验；2）多模态媒体处理需求日益凸显，对音视频处理的生产端、交互端、消费端提出了全新要求；3）如何让技术应用真正落地并带来世纪业务价值，是当前必须面对的问题。

应对这些挑战，火山引擎视频云基于抖音真实业务实践和与行业客户共创，正积极探索大模型AI与视频技术的深度融合；在技术底座层面，依托自研的算力编解码技术和多媒体处理框架，致力于优化成本并提升计算效率；在处理链路层面，结合大模型和AI技术，全面优化了生产交互和消费链路，以打造更智能、更交互、更沉浸的用户体验；在业务增长层面，与抖音平台生态紧密联动，构建从内容分发到变现的全链条业务增长模式。

一、应对AI视频时代技术挑战：自研芯片对外开测，BML视频处理框架上新

抖音集团视频架构负责人王悦分享了一组来自市场调研机构的数据：视频是云业务中增长最快的工作负载之一；到2026年，视频在数据中心基础设施中的占比将从10%增长到20%~25%；到2024~2030年，市场规模预计将达千亿美元。

他谈道，AI视频时代面临三重挑战：一是计算效能，生成式AI技术大幅降低视频生成的门槛，导致视频数据以惊人的20倍速增长；二是编解码极限，编解码技术的智能化升级正推动与AI/大模型技术的深度融合，不仅提升了编解码效率，而且为用户带来了更加优质的视频体验；三是框架瓶颈，需要构建更强大、更灵活的多媒体处理框架，满足日多模态/跨模态预训练处理需求。

王悦宣布，火山引擎去年推出的自研视频编解码芯片取得显著进展，在抖音集团内部实践验证中实现了效率的显著提升和成本的大幅降低，在同等视频压缩效率下，成本节省了95%以上。火山引擎也将首次正式对外开放测试，招募首批种子用户，共同探索商业价值的可复制性。该芯片的BVE1.2编码器，在2024MSU世界编码器大赛中首次亮相就以其优异的编解码性能和吞吐率的大幅领先，夺得最佳ASIC编码器。

在智能编解码的算法层，火山引擎的图像视频压缩技术也取得了突破性进展，其自研编解码技术BVC升级到更高效的第二代，并融合了深度学习技术，推出了传统-智能混合编解码解决方案。

该方案在充分理解传统编码技术和深度学习压缩技术各自原理的基础上，将二者有机的融合成一体。传统编码框架加入了非对称四叉树划分等创新技术，智能编码模块则引入了基于深度学习的环路滤波、自适应变采样等技术。这种结合极大提升了编解码的效率，该方案在第六届深度学习图像压缩挑战赛的高码率和低马力两个压缩赛道上均取得了主观和客观的双料指标冠军。

在框架层面，火山引擎自研视频处理框架BMF自去年开源以来，在助力AI初创项目落地和移动端开源层面不断演进，今日进一步发布并开源移动端后处理解决方案BMF lite版本。

BMF lite具有更轻量、更通用、更高效、更前沿等特点，比如它没有第三方依赖，具有轻量化的结构设计、多平台统一的接口形式、Kernel融合方案等，支持端侧大模型接入和算子加速、算法间复用资源。

目前BMF lite已广泛应用于抖音各业务上，每天服务超10亿名用户，处理视频图片万亿次。

由于端侧对功耗和内存非常敏感，火山引擎重点建设基于跨平台资源复用的算法包框架设计，整体对外将采用跨平台的数据结构设计，适配安卓、iOS、Web、PC等平台，复用相同的算法实例，不同算法可复用算子及数据资源。这个方案针对点播和直播后处理的场景收益明显。

在模块算法层面，火山引擎此次开源对外输出了超分、降噪、大模型文生图算法能力，选取的模型是开源的，将在一些抖音实际落地的工程优化方案应用到模型加速中。火山引擎也同步开源了基于GPU加速的7种常用基础图像算子能力，并充分扩充了客户端的一些异构能力，包括DSP、NPU、端侧GPU。

二、依托BMF框架，视频生成大模型已上线火山引擎

对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

随着视频生成模型兴起，训练大模型的处理框架面临诸多挑战：首先是成本挑战，超大规模视频训练数据集导致计算和处理成本激增；其次是质量挑战，视频样本数据质量参差不齐，处理链路环节多、工程复杂，数据样本待分类、分段和清洗；三是性能挑战，涉及多种异构算力资源的调度和部署。

借助英特尔CPU等资源，火山引擎大模型训练视频预处理方案依托于自研多媒体处理框架BMF，能有效应对模型训练的算力成本挑战。该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。

BMF通过和豆包大模型团队合作，对海量视频数据进行了预处理。基于火山引擎视频处理平台和BMF框架，火山引擎短时间内生产了足够多高质量的视频素材用于模型训练，也有力支撑了视频生成大模型的上线与调优。

火山BMF大模型训练视频预处理方案应对成本挑战，使用了海量的潮汐资源和精细化混部调度；应对质量及性能挑战，使用30+种算子对视频进行了多维度分析和筛选，利用DMF框架灵活调度将复杂的算子处理流程灵活部署在多种资源上，实现了快速的性能调优；应对协同挑战，利用BMF动态模块特性，实现插件化解耦、多语言开发，相比传统框架将迭代效率提升了数倍。

英特尔大数据高级首席工程师程从超分享说，大模型和生成式AI时代面临高算力、高质量数据集、改善描述复杂性、构建开源生态等方面的挑战。视频转码性能对CPU的计算能力敏感，CPU的频率、核数和cache的大小都很重要。通常视频处理的节点都是数据中心里性能较为高端的服务器。

英特尔能够为不同的视频处理选择最合适的平台，比如一机多卡高密度GPU可满足编解码密度和成本需求，CPU和GPU方案的灵活配置能够根据具体应用来分配资源，至强CPU可实现视频质量最优、编码灵活、稳定可靠。

三、多项“音视频+AI”技术方案，助力企业全链路适配AIGC

火山引擎视频云团队为字节跳动提供音视频技术，并通过火山引擎服务外部客户。

Bytedance Research负责人李航谈道，豆包视频生成模型PixelDance在训练过程中采用了火山引擎大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。

火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务，让模型的商业化应用有了保障。

豆包视频生成模型PixelDance于9月24日发布，该模型采用DiT架构，通过高效的DiT融合计算单元和全新设计的扩散模型训练方法，突破了多主体运动的复杂交互、多镜头切换的内容一致性难题。目前，豆包视频生成模型已通过火山引擎面向企业开启邀测。

PixelDance1.4新版本有四大特点：1、能生成人物的复杂连续动作；2、能生成复杂的多主体交互；3、能一次性生成多镜头视频；4、拥有超强的运镜控制能力。

其核心技术包括大规模扩散生成模型、高压缩比&高还原性视频编码解码模型、精准视频描述模型、大规模公开视频数据处理管线等。

火山引擎视频云负责人Yongyuan谈道，在AI视频时代，人和AI交互变得更加动态和生动，这要求处理链路更加智能和交互。

会上，火山引擎发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案，从视频的生产端、交互端到消费端，全链路融入AI能力。

在生产端，跨语言同声复刻直播方案能够优化同传直播，实现更加精准的字幕识别、更快输出并带有自然断句，还通过虚拟人技术调整口型，支持6国以上的语言输出；多模态视频理解与生成方案能够应用于短剧、赛事、教育等场景；多模态电商素材生成方案可生成图文、解说、AIGC视频和3D模型。

在交互端，依托豆包大模型和火山引擎视频云自研的多项算法，对话式AI实时交互方案使得人与AI的交互更加自然，提供了智能对话和自然语言处理的强大能力、媲美真人的自然生动音色，也支持声音复刻，可实现毫秒级人声检测和打断响应，能过滤90%噪声，精准识别打断意图，并通过流式处理将端到端响应延时降低至1秒。

在消费端，AIG3D方案使3D构建更便捷；大场景重建方案具有高效渲染速度，支持二次创作，可低成本生成直播布景，使场景重建更真实；6DoF直播方案提供实时3D模型渲染、低延时6DoF并能降低采集成本，让空间体验更沉浸。

例如，火山引擎通过AI生成3D内容和大场景重建方案，为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产，并以虚拟直播间的形式应用于抖音戏曲直播场景。

抖音开放平台开发者运营负责人李建男分享了AI新产能助力业务增长的三个关键词——创建新场景、制造新体验、塑造新产能。她分享了一些数据：AI智能体将直播间变现效率提升了36%；生成式AI大大降低创作门槛，带动图片、视频、故事、IP、办公、学习等优质内容量级增长200%；引入AI创作工具能带动视频投稿量、平均W数、内容丰富度的有效增长。

李建男总结道，通过三方模型引入数据场景开放，能够实现垂类深度支持，带动线索转化率提升，从而提升营销效果，这对服务商是一个非常好的机遇，可带动服务商商业价值提升，进而带来更多精准语料，进一步驱动技术进步，实现更好的模型训练效果提升。

结语：AI+视频技术深度融合，推动用户体验多维度转变

生成式AI为视频化社会带来了革命性变化，不仅能提升内容创作效果，还丰富了交互体验。在AIGC、多模态等技术的共同推动下，用户体验在多个维度上经历着深刻转变。

与此同时，AI+视频也给底层技术的效能化、编解码的智能化、处理框架的广泛化带来新挑战。作为AI视频时代智能底座的构建商，火山引擎希望让多媒体处理框架的部署更加规模化、普惠化，进一步控制算力成本和提高计算效率，推动编解码与智能技术更好融合，从而提升最终的体验效果。