攻城狮爆肝亲测,国内AI文生图哪家强?

研发玩点艰辛事 2024-12-07 04:37:53

作为一个不会设计图但还想捣鼓一下自媒体,偶尔发下文章之类的程序员,经常需要图片时想基于大模型的文生图AI能力创作一个,但一直没有遇到合适的,下面我花了一些时间就像神农尝百草一样体验下各大平台的AI文生图能力。

注:请耐心看完,最后确实有百分百满足需求的平台(非广告,其它平台经过未来发展可能也会提升,另外也可能和大模型训练的数据集缺少相关主题的图片内容有关,也许各有侧重重点,因此结果仅为个人测试当作随机参考)

统一测试提示词:请画一幅图,图中有一块黑板,黑板上写着简体中文"AI让程序员变为全栈",字体是白色,并且在排版方面都排在同一行

通义千问

通义千问-测试结果

文心一格

文心一格-测试结果

豆包

豆包-测试结果

Tusiart

tusiart-测试结果

liblib.art

liblib.art-测试结果

无界AI

无界AI-测试结果

Qiyuai

奇缘-测试结果

insmind

insmind-测试结果

Fluxai

fluxai-测试结果

Bigesj

bigesj-测试结果

Whee

注:美图旗下 AI 绘画平台,模型是 MiracleVision 大模型

whee-测试结果

汇总下结果如下:

AI平台

意图理解

生成图片质量

综合评分

通义千问

未理解

内容完全不符

*

文心一格

理解了黑板

文字不符,乱

*

豆包

理解了黑板

文字是日文

**

tusiart

没理解

完全不符

-

liblib

理解了黑

非黑板,文字不符

-

无界AI

理解了黑板

文字不符

*

qiyuA

没理解

完全不符

-

insmind

没理解

完全不符

-

fluxai

理解黑板

文字不符

**

bigesj

可理解

多了个老师

****

whee

可理解

完全正确

*****

为什么文生图看起来比较难,甚至只有个别大模型可以做的相对靠谱?

下面是AI文生图的核心原理和生成图片的质量关联因素:

1)大规模有丰富标注的图片数据集的预训练

AI 文生图模型需要在大量的现有“图像-文本对"数据上进行预训练。这些数据集包含了各种各样的图像和与之对应的文本描述。例如,有风景图片和描述其景色特点的文字,有人物图片和对人物外貌、动作的描述等。通过对这些数据的学习,模型能够理解不同的文本元素和图像特征之间的关联。

2)对用户请求的语义理解与特征提取

模型会从文本中提取语义信息,比如对象(人、物等)、属性(颜色、形状等)、关系(位置关系、动作关系等)。同时,它也会从图像数据中提取相应的视觉特征,如线条、色彩分布、纹理等。然后将文本语义与图像视觉特征进行匹配学习。例如,对于 “一个红色的圆形气球在蓝色天空中飞翔” 的文本,模型会学习到 “红色”“圆形”“气球”“飞翔”“蓝色天空” 这些语义元素应该与什么样的视觉特征相对应,从而在生成图像时能够根据这些知识组合出合适的画面。

0 阅读:11
研发玩点艰辛事

研发玩点艰辛事

感谢大家的关注