我们用AI搞了一组连环画,GPT-4o和Gemini谁更懂细节?

程序员小灰灰 2025-04-03 05:34:40

大家好!最近GPT-4o的多模态生图爆火了,许多人都用GPT-4o生成了各种有趣的AI绘画作品,人气甚至压过了前一段时间被追捧的Gemini-2绘画模型。

那么,如果让AI画一组“连环画”,保证故事连续、主角不变、背景一致,它还能hold住吗?

这一次,我们就拿身为科技圈顶流的雷总来开个“测试”,场景设定在浪漫的武汉大学樱花大道,让两大顶级AI模型——OpenAI的GPT-4o和Google的Gemini-2绘画模型,来一场高难度的“连续剧”创作挑战!

我们设计了环环相扣的5个步骤,看谁能更精准地理解指令,并保持画面人物、背景的高度一致性!

挑战第一步:基础场景构建

Prompt 1: 雷军从车里探头微笑,背景是武大樱花大道,高清照片风格(尽量接近真实照片,细节更精致)

GPT-4o 作品:

简评: GPT-4o 在这一步表现相当出色!人物还原度: 生成的人物与雷军的相似度很高,面部特征和标志性的笑容都捕捉得比较到位。动作与场景: “从车里探头微笑”的指令执行准确,人物与车辆的融合自然。背景氛围: 背景虽然不是严格意义上的武大樱花大道实景,但成功营造了樱花盛开、道路延伸的氛围感,背景虚化处理也符合“高清照片”突出主体的风格。照片风格: 整体光影、细节(如皮肤纹理、车漆反光)都体现了照片的质感,比较接近真实照片。

Gemini-2 作品:

简评: Gemini-2 在这一步的理解出现了明显的偏差。人物缺失: 完全没有生成“雷军”这个核心主体,画面中只有车辆和背景。指令误解: 似乎将重点放在了“车”和“武大樱花大道”上,忽略了最重要的“人”和“动作”。文字水印: 更严重的是,图片上方出现了根据Prompt生成的、类似标题的文字,这表明模型可能错误地将部分文本提示理解为需要绘制到图像中的元素。这是一个比较常见的AI绘图问题。背景与风格: 单就背景而言,樱花大道的渲染比较鲜艳,有一定视觉冲击力,车辆也具有照片感,但整体构图与指令要求相去甚远。

第一轮小结:

在基础场景构建阶段,GPT-4o 明显更胜一筹。它准确地理解了指令中的所有关键元素(人物、动作、背景、风格),并生成了一张高度符合要求的图像。

相比之下,Gemini-2 未能抓住核心指令,遗漏了关键的人物主体,并且出现了将提示词文本错误渲染进画面的问题。这为后续的一致性测试埋下了伏笔——如果第一步就没抓住主体,后续的连续修改恐怕会更加困难。

挑战第二步:添加简单元素

Prompt 2: 给雷军戴上一顶魔术帽

GPT-4o 作品 (基于上一步):

简评: GPT-4o 再次展现了强大的图像编辑和一致性保持能力!面部一致性: 关键点来了!对比第一张图,雷军的面部特征、笑容几乎完美保持一致,没有出现明显的“换脸”现象。这是非常重要的成功!元素添加: 成功地给雷军戴上了一顶黑色带红边的魔术帽(Top Hat),帽子的大小、角度和光照都与人物和环境融合得比较自然。背景与场景: 背景的樱花大道、车辆内部结构、人物的姿态和衣着都与第一张图保持了高度一致。指令执行: 精准执行了“戴上魔术帽”的指令,并且是“给雷军戴上”,目标明确。

Gemini-2 作品 (基于上一步):

简评: Gemini-2 在这一步的问题更加突显。主体缺失依旧: 依然没有雷军,所以无法完成“给雷军戴帽”的核心指令。错误的对象: 它确实生成了一顶魔术帽(黑色带蓝边),但由于找不到“雷军”,它错误地将帽子“戴”在了车顶上!这清晰地暴露了模型在理解指令主语和联系上下文方面的不足。背景一致性: 背景的樱花大道和车辆本身与第一张图相比,大体结构保持了一致。文字问题持续: 图片上方的错误文字依然存在,甚至内容略有变化(但依然是乱码或错误解读的提示词),这个问题没有得到修正。

第二轮小结:

在添加元素的环节,GPT-4o 的表现堪称惊艳。它不仅准确地添加了新元素(魔术帽),更重要的是维持了核心人物面部特征的高度一致性,这是衡量AI图像编辑能力的关键指标。

而 Gemini-2 则完全失败,由于第一步未能生成主体人物,导致第二步的指令被错误地应用到了车辆上,并且未能修正第一步的文字错误。两者在图像一致性理解和编辑能力上的差距在这一轮被显著拉大。

挑战第三步:增加动态细节

Prompt 3: 几片樱花花瓣轻轻飘落,正好停在他的魔术帽顶端。

GPT-4o 作品 (基于上一步):

简评: GPT-4o 在细节控制和一致性上表现堪称完美!面部与元素一致性: 雷军的面部特征、笑容、魔术帽的位置和样式,与第二张图高度一致,几乎没有变化。这是连续编辑中的巨大成功。精准的细节添加: 指令要求“几片”花瓣,且“正好停在他的魔术帽顶端”。GPT-4o 精准地在魔术帽平坦的顶端添加了一片清晰可见的白色樱花瓣,不多不少,位置准确。同时,背景中也隐约增加了几片飘落的花瓣,增强了动态感,但没有喧宾夺主。整体和谐度: 新增的花瓣与画面融合自然,没有突兀感,整体依然保持了高清照片的风格和氛围。

Gemini-2 作品 (基于上一步):

简评: Gemini-2 继续在错误的道路上保持“一致性”,并且对细节指令的理解偏差较大。主体缺失与错误延续: 依然没有雷军,魔术帽仍在车顶,顶部的错误文字也还在。它保持了自己前一步的错误状态。细节执行偏差: 虽然确实添加了樱花花瓣,但数量远超“几片”,并且没有实现“正好停在魔术帽顶端”的精准要求。花瓣散落在空中和车身周围,更像是笼统的“樱花飘落”效果。额外元素干扰: 甚至在车头格栅处添加了几朵完整的、较大的樱花,这完全超出了指令的要求,属于画蛇添足或理解错误。

第三轮小结:

这一轮是考验 AI 对精细指令理解和执行能力的关键。GPT-4o 不仅保持了人物和场景的高度一致性,还极其精准地执行了“花瓣落在帽顶”这一细节要求,展现了出色的控制力。

而 Gemini-2 则继续跑偏,虽然也添加了花瓣,但未能准确执行数量和位置的要求,并且引入了额外的无关元素。

至此,GPT-4o 在保持一致性和准确理解指令方面,已经遥遥领先。

挑战第四步:增强氛围感

Prompt 4: 一阵微风吹来,更多的樱花花瓣在他周围和车窗边飞舞。

GPT-4o 作品 (基于上一步):

简评: GPT-4o 的表现持续稳定且出色,对氛围的营造十分到位!一致性保持: 雷军的面部特征、笑容、魔术帽(包括帽顶的那片花瓣!这个细节保留得太好了!)、服装以及车内环境,与第三张图保持了极高的一致性。这连续三步的稳定输出令人印象深刻。氛围增强: 对比第三张图,画面中明显增加了更多飞舞的樱花花瓣。这些花瓣分布在人物周围、前景以及车窗玻璃上(可以看到一些贴在玻璃上的模糊花瓣),完美契合了“在他周围和车窗边飞舞”的描述。动态感营造: 花瓣的形态和分布带有一定的模糊和动感,成功传达了“微风吹拂”的感觉,画面氛围更加生动浪漫。

Gemini-2 作品 (基于上一步):

简评: Gemini-2 依然在延续之前的错误,但在“增加花瓣”这个指令上有所反应。核心错误不变: 仍然没有雷军,魔术帽依然在车顶,顶部的错误文字也还在。整体场景维持了其自身的错误连贯性。花瓣效果增强: 对比其第三张图,Gemini-2 确实增加了画面中花瓣的数量和密度,尤其是在前景和空中,试图营造更强的樱花氛围。指令理解局限: 由于没有“他”,指令中的“在他周围”无法实现。花瓣的飞舞效果更像是全局性的,缺乏围绕特定主体的感觉。车窗边的花瓣效果不明显。细节变化: 似乎第三轮中车头格栅上的大花朵消失了,这算是一个微小的(但可能是无意的)修正,但也说明其内部状态并不完全稳定。

第四轮小结:

在增强氛围感的环节,GPT-4o 再次证明了其强大的图像编辑和连续生成能力。它不仅完美保持了所有既有元素(包括帽顶花瓣这样的精细细节),还准确理解并执行了增加动态花瓣、营造氛围的指令。

而 Gemini-2 虽然也增加了花瓣数量,但由于基础画面的根本性错误,这种增强更像是锦上添“花”(但添错了地方),无法弥补其在主体识别和指令理解上的缺陷。GPT-4o 在一致性和准确性上的优势愈发明显。

挑战第五步:引入新角色,考验空间逻辑

Prompt 5: 从他身后的车座缝隙里,小心翼翼地探出一个小米铁蛋机器狗(CyberDog)的脑袋,也好奇地望着外面的樱花。

GPT-4o 作品 (基于上一步):

简评: GPT-4o 在这最终、最复杂的一步依然表现出色,尤其在一致性方面,但在空间逻辑上略有偏差。一致性王者: 令人难以置信的是,雷军的面部特征、笑容、魔术帽(甚至帽顶的那片花瓣都还在!)、飞舞的花瓣、车辆和背景,与第四张图保持了惊人的连贯性。这是跨越多轮复杂编辑的巨大成功!新角色添加: 成功地在画面中加入了一个机器狗的脑袋。其造型接近CyberDog的深色、硬朗风格。机器狗的姿态确实是“探出脑袋”、“望着外面”,符合指令描述。空间逻辑执行偏差: 指令要求“从他身后的车座缝隙里”探出。但图片中,机器狗的位置更像是在他旁边的座位上,或者从靠近他肩膀的车门/窗位置探出,而不是严格意义上的“身后”和“座椅缝隙”。虽然加入了新角色,但精确的空间定位未能完全实现。整体效果: 尽管空间定位略有不足,但整体画面依然和谐,新加入的元素没有破坏原有的主体和氛围,一致性保持得非常好。

Gemini-2 作品 (基于上一步):

简评: Gemini-2 的表现可以说是完全崩溃,不仅延续了之前的错误,还引入了新的混乱。外观错误: 这不是小米CyberDog,而是一个带有蓝色发光眼睛、黄黑配色的卡通/概念化机器人头。位置错误: 它被放在了车头正前方,像是车标或引擎盖上的装饰物,与“身后座椅缝隙”的要求南辕北辙。与场景融合差: 机器人头与车辆和背景的融合显得非常突兀,像是后期强行P上去的。核心错误依旧: 依然没有雷军,顶部的错误文字还在。不一致性加剧: 第四轮还在车顶的魔术帽消失了!这表明它不仅无法保持与正确图像的一致性,甚至无法保持与其自身错误状态的一致性。新角色理解与放置完全错误: 它确实生成了一个“机器人脑袋”,但……

第五轮小结:

最终的考验,GPT-4o 展现了其在保持图像高度一致性方面的强大实力,能够连续接受多轮复杂指令,并基本保留所有关键元素(包括微小细节如帽顶花瓣)。虽然在最难的空间逻辑(从身后缝隙探出)上未能完美达成,但成功添加了新角色并维持了画面整体性。

相比之下,Gemini-2 在这一轮彻底失败。它不仅没能修正之前的错误(无人物、错误文字),反而丢失了自己前一轮添加的元素(魔术帽),出现了新的不一致。对于新角色的添加,无论是外观、位置还是与场景的融合都完全错误,完全无视了指令中的空间描述。

结尾:

这次AI一致性大考验,结果高下立判!看来想让AI画“连续剧”,稳定输出不“崩图”,确实是个技术活儿。

那么,灵魂拷问来了:你在使用AI绘画时,是否也遇到过“画几张脸不一样”或者“加个东西背景全变”的抓狂时刻?

大家赶紧来评论区吐吐槽,分享你的“AI翻车”经历!

0 阅读:13
程序员小灰灰

程序员小灰灰

感谢大家的关注