豆包视觉理解模型正式发布，1块钱可处理近300张高清图片

论低价，阿里云终于迎来了真正的对手？

近日，字节跳动旗下的豆包大模型家族迎来了一次里程碑式的升级，豆包视觉理解模型作为此次升级的重头戏，旨在为企业提供高效且经济的视觉处理方案。

该模型具备出色的内容识别、理解和推理能力，能够根据图像信息进行复杂的逻辑计算，从而完成从智能训练到数据合成，再到数字资产制作的完整流程。

值得一提的是，豆包视觉理解模型在处理大量数据时展现出了显著的成本优势，其千tokens价格仅为3厘，换算下来，每处理一张720P的图片成本不到4分钱，相较于行业平均水平降低了85%。这一突破性进展，无疑将为企业在视觉处理领域节省大量成本。

此前，豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示：“豆包一直在努力，让用户的输入更快更方便”。为此，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

此外，豆包大模型多款产品也迎来重要更新：豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，更是在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

作者：杨启隆

编辑：钟响

世良情感网