11月7日,记者在字节跳动旗下大模型AI助手豆包官网主页看到,豆包已启动视频生成内测,将对通过审核的申请用户开放。这也意味着,继快手、商汤、Minimax等公司后,字节跳动正式入局AI视频生成领域。
进入豆包官网,用户除了像往常一样可以看到“AI搜索”“帮我写作”“图像生成”等文生文、文生图等领域的AI功能外,还多了一个“视频生成抢先内测”的入口。点击进入后,用户可以看到由图片、文字一键成片的豆包视频样片。样片中集合了多段视频,时而是几辆疾驰的跑车在高楼大厦林立的都市中穿梭;时而是戴着墨镜的时髦女士浅浅微笑;时而是在雨天里,一名撑着黑伞的男士和它的狗一同步行在街道上……
记者观察到,对比起部分AI生成视频产品依然存在比较明显的“AI痕迹”,上述多段视频则更加逼真自然,人物皮肤、雨滴、光影等细节刻画得较为准确。豆包官网内容显示,豆包视频生成支持图片文字一键成片,具备语义理解能力,“能将信息转化为生动逼真的视频内容。支持酷炫的动态和运镜,多镜头保持一致,风格比例随意挑选。”
记者注意到,字节跳动旗下火山引擎两个月前曾在深圳举办AI创新巡展,披露了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型面向企业市场开启邀测。“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性。”火山引擎总裁谭待在活动中介绍,此前,视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。这也意味着,不同人物或可完成多个动作指令的互动,人物样貌、服装细节等可在不同运镜下保持一致,接近实拍效果。
据梳理,自今年2月美国人工智能研究公司OpenAI发布人工智能文生视频大模型Sora后,国内多家公司纷纷布局AI视频生成领域。例如,快手发布的可灵AI,可根据简单文本提示生成长达10秒的视频;商汤科技发布了视频生成大模型Vimi;MiniMax发布了AI高清视频生成模型技术abab-video-1,可供用户在海螺AI官网免费体验生成包含文字的视频。