字节跳动发布豆包视频生成模型,AI与现实界限模糊
9月24日,火山引擎 AI 创新巡展在深圳隆重举行,透露了豆包大模型的最新动态。这次活动的重头戏是豆包视频生成模型的发布,迎来新一代“豆包家族”的成员。此外,火山引擎还推出了豆包音乐模型和同声传译模型,并对通用语言模型、文生图模型、语音模型进行了升级。新一轮的技术迭代,不仅提升了各类模态的应用潜力,还强化了经济实用的优势,使豆包大模型无疑展现了“强大、价格低、易落地”的优秀特性。
豆包视频生成模型在语义理解方面表现出色,能够生成多动作和多主体的互动内容。这一模型打破了许多视频生成产品只能执行简单指令的局限,能够理解复杂的提示,成功捕捉多种时序动作,让视频生动起来。比如,观众能看到两位角色展现出自然而真实的表情和动作,甚至马也显得栩栩如生。
此外,豆包视频生成模型的动态表现力也让人印象深刻,告别了以往的“PPT 动画”风格。它能灵活应对高动态复杂场景,将文本指令变化多样地转化为生动的视频表现,其镜头运用更加丰富多样,创造出令人耳目一新的视觉效果。像视频中主角的变焦切换自然流畅,宛如真正的摄影师在现场拍摄。
在内容逻辑上,豆包视频生成模型的多镜头生成也是一大亮点,能讲述完整的故事情节。其采用的新设计扩散模型训练方法,有效解决了多镜头切换时一致性保持的问题。通过几个镜头切换,观众可以直观感受到整个故事流畅自然。比如,在一段讲述火箭冲撞大楼的动画视频中,镜头剪辑合理且表现出主人公的紧张情绪,着实让人感叹 AI 创作意识的觉醒。
稳定的高保真与视觉美感也是豆包视频生成模型的强项,能够生成影视级画质,细节丰富,令观众过目不忘。而其深度优化的 Transformer 结构,不仅扩宽了生成样式,还支持多种风格的展现。
可以说,豆包视频生成模型的表现毫不逊色于专业视频制作人。实现这一点,对字节跳动及火山引擎而言并非偶然。字节跳动在“视频”领域的技术积累和火山引擎在流量处理上的优势,为豆包大模型的成功奠定了基础。
在展会上,火山引擎总裁谭待透露,豆包大模型已取得了显著的市场认可。截止到9月,豆包大模型的日均 tokens 使用量突破了 1.3 万亿,并且其应用已覆盖多个业务领域,包括抖音和头条等。
未来,豆包视频生成模型将为电商、动画教育、城市文旅等许多领域提供全新的创作工具。无论是为商品创造动态展示,还是降低动画制作成本,让故事生动呈现,都是其可以实现的目标。