引言
年底了,Google又放出了一波大招,发布了三个重磅的AI生成工具——Veo2视频生成模型、Imagen 3图片生成模型以及Whisk图片融合工具。作为一名AI博主,我第一时间对这些工具进行了测试,希望能为大家带来详细的使用体验和效果测评。本文将详细介绍这三个工具的使用方法和效果,帮助大家更好地了解这些新工具的潜力。
1. 使用方法与注意事项
1.1 Google Lab的访问
要使用这些新工具,你首先需要访问Google Lab。当前,Google Lab的服务仅支持美国地区,因此你需要开启美国的全局代理才能访问。如果使用美国IP仍无法访问,建议更换IP,因为Google的风险控制有时会比较严格。作为用户,我们只能适应这些限制。
1.2 VideoFX的申请
VideoFX是这四个项目中唯一需要加入等候名单的工具。我已经申请了,但尚未开通。因此,本文将主要介绍其他三个工具的使用体验,但在文末会展示一些其他用户使用VideoFX生成的视频效果,供大家参考。
2. Whisk图片融合工具
2.1 基本介绍
Whisk是一个非常有趣的图片融合工具,其名字直译为“打蛋器”。Whisk的口号是“少提示,多玩法”,强调用户可以通过较少的提示词实现更多的创意。让我们一起来看看Whisk的具体使用方法和效果。
2.2 使用步骤
2.2.1. **登录Google账号**:进入Google Lab后,点击登录按钮,使用Google账号登录。
2.2.2 **上传图片**:进入Whisk界面,你可以看到一个非常个性化的UI。点击“从头开始”,进入操作台。在这里,你可以上传图片进行创作。
2.2.3 **选择主题、场景和样式**:Whisk将图片分为三个部分——主题、场景和样式。我们分别上传一张主题图片、一张场景图片和一张样式图片。主题图片我们选择一张美少女图,场景图片选择一辆飞驰的跑车,样式图片选择梵高的星空。
2.3 生成效果
点击生成后,Whisk会在30秒左右生成两张图片。从宏观上看,两张图片对素材图元素的迁移做得相当到位,人物和场景都没有问题。样式上,星空的风格虽然不是特别明显,但整体效果绝对在及格线以上。
2.4 文字生成
训练集中明显没有汉字或汉字较少,因此生成的文字有些四不像,但数字生成没有问题。对于场景的借鉴,可以看到镜头的角度几乎一致,光影效果也很类似,高光区域在画面中部偏左,墙面反射合理,人物面部的高光和墙上的投影也非常真实。
2.5 提示词反推
点击生成的图片,可以看到模型自动生成的提示词。虽然我们没有输入提示词,但模型能够准确地反推出我们提交的素材图的描述。两套图片的提示词有一些差异,但都对素材图进行了相对细致且准确的描述。
2.6 其他玩法
Whisk还提供了一些预设,方便用户实现有趣的效果。例如,我们可以选择贴纸预设,上传熊猫图片,生成贴纸效果。生成的贴纸效果非常不错,甚至可以直接开一个业务,帮用户将头像或照片生成贴纸,然后在小红书或抖音上售卖,非常有市场潜力。
3. Imagen 3图片生成模型
3.1 基本介绍
Imagen 3是Google Lab的另一款图片生成模型,支持在imageFX中使用。界面简洁,用户可以通过输入提示词生成高质量的图片。
3.2 使用步骤
3.2.1 **输入提示词**:在提示词输入框中,输入“1girl”进行测试。下方会有一些相关的建议提示词,例如“35毫米胶片”。
3.2.2 **设置种子数**:种子数默认为随机,点击锁可以锁定seed值,方便生成类似的图片。
3.2.3 **选择宽高比**:支持五种宽高比,我们选择默认的16:9。
3.2.4 **生成图片**:点击创建,生成图片。如果提示词无法生成,可以尝试修改提示词,例如“2girls”。
3.3 生成效果
生成的图片质量非常高,对复杂提示词的理解也很到位。四张图片中,人物的一致性做得不错,旗袍上的花纹略有差异,但整体效果非常不错,可以达到90分以上。虽然汉字没有画出来,但整体效果仍然令人满意。
3.4 提示词修改
Imagen 3模型对提示词的理解非常准确,可以通过点击高亮标记的提示词进行修改,生成略微不同的图片。例如,将红色旗袍改为蓝色裙子,生成的图片效果也非常逼真。
4. Veo2视频生成模型
4.1 基本介绍
Veo2是Google Lab的视频生成模型,当前需要申请加入等候名单。虽然我尚未获得内测资格,但通过其他用户的生成作品,可以看出Veo2的潜力非常大。
4.2 生成效果
4.2.1 **外星集市视频**:一个8秒的外星集市视频,运镜和场景都比较稳定,粗看非常震撼。但细看可以发现一些AI生成的痕迹,例如外星人的步伐有些踏空,摊位也有一些AI特有的抖动。
4.2.2 **单人镜头视频**:一个单人镜头中,人物走路的姿势非常逼真,身上的花朵也有合理的惯性运动,人物主体和背景清晰分明,整体效果非常好。
4.3 与Sora的对比
Veo2与Sora在生成视频的效果上有显著差异。Veo2的真实感非常强,而Sora则出现了一些物理错误和穿模现象。虽然Veo2并非每次都能生成完美的视频,但其成品率和效果仍然值得期待。
5. 总结
从生成效果来看,Imagen 3模型绝对可以与Flux和MJ等竞争对手一较高下,特别是在对复杂提示词的理解上表现出色。然而,由于受限于闭源和社区政策,Imagen 3可能失去一些希望微调和获得更大出图自由度的用户。Whisk则提供了更低的操作门槛和更便捷的使用体验,生成效果也非常不错。至于Veo2模型,虽然目前只能通过其他用户的生成作品来了解其效果,但其潜力和成品率仍然值得我们期待。
结语
非常感谢大家的阅读,希望大家能从本文中获得有价值的信息。如果有任何疑问或建议,欢迎在评论区留言。我们下期再见!