IDEA发布DINO-X：用于开放世界对象检测和理解的统一视觉模型

IDEA提出了 DINO-X对象检测模型，这是IDEA 开发的具有最佳开放世界物体检测性能的统一视觉模型。为了使物体检测变得简单，DINO-X 扩展了其输入选项以支持文本提示、视觉提示和自定义提示。

IDEA开发了一个通用物体提示来支持无提示的开放世界检测模型，从而无需用户提供任何提示即可检测图像中的任何内容。为了提高模型的开放世界对象检测性能，IDEA构建了一个包含超过 1 亿个高质量的大规模数样本数据集，称为 Grounding-100M。

IDEA还扩展了 DINO-X 模型：集成多个感知头，从而同时支持多个物体感知和理解任务，包括检测、分割、姿势估计、物体描述、基于物体的问答等。

DINO-X 对象检测

DINO-X 发布了两个模型：

DINO-X Pro：性能最强，增强感知能力，适用于各种场景

DINO-X Edge：高效模型，针对更快的推理速度进行了优化，更适合部署在边缘设备上

DINO-X整体框架

DINO-X 可以接受文本提示、视觉提示和自定义提示作为输入，并且可以生成各个语义层面的表示，包括边界框、分割蒙版、姿势关键点和对象标题等。

零样本物体检测和分割基准评估

与之前的先进方法相比，DINO-X 表现出显著的性能提升。DINO-X 在 COCO 检测基准上实现了 56.0 的 AP。在 LVIS-minival 和 LVIS-val 基准上，DINO-X Pro 分别实现了 59.8 的 AP 和 52.4 的 AP，分别比之前表现最好的 Grounding DINO 1.6 Pro 模型高出 2.0 AP 和 1.1 AP。值得注意的是，对于 LVIS 稀有类别的检测性能，DINO-X 在 LVIS-minival 上实现了 63.3 AP，

在 LVIS-val 上实现了 56.5 AP，分别比之前的 SOTA Grounding DINO 1.6 Pro 模型高出 5.8 AP 和 5.0 AP，展示了 DINO-X 在开发世界物体检测场景中的卓越能力。

零样本物体检测和分割基准评估

基于视觉提示的检测基准评估

为了评估 DINO-X 的视觉提示物体检测能力，IDEA在少样本物体基准上进行了实验。与 T-Rex、T-Rex2 等相关工作相比，DINO-X 实现了最先进的性能，证明了其模型在实际视觉提示物体检测中的强大能力。

基于视觉提示的检测基准评估

人体 2D 关键点基准评估

由于冻结了 DINO-X 的主干并仅训练模型头，因此对物体检测和分割的评估仍然遵循零样本设置。通过在多个姿势数据集上训练模型头， DINO-X模型可以有效地预测各种人物风格的关键点，包括日常场景、拥挤环境、遮挡和艺术照片等。

虽然DINO-X 模型实现的 AP 比 ED-Pose 低 1.6，但它在 CrowdPose 和 Human-Art 上的表现分别比现有模型高出 3.4 AP 和 1.8 AP，显示出其在更多样化场景中的卓越泛化能力。

人体 2D 关键点基准评估与人手关键点评估

人手 2D 关键点基准评估

除了评估人体姿势外，DINO-X还在 HInt 基准上展示了手势姿势检测的能力。DINO-X 在 PCK@0.05 指标上取得了最佳表现，表明其在高精度手势估计方面具有强大的能力。

DINO-X 可以根据文本提示通过关键点头预测特定类别的关键点。DINO-X 在 COCO、CrowdHuman 和 Human-Art 数据集上进行训练，能够预测各种场景中的人体和手部关键点。

无提示对象检测

无提示物体检测

DINO-X 展示了根据给定的文本提示检测任何物体的能力。它可以识别各种物体，从常见类别到未常见类别和密集物体场景，展示了其强大的开放世界物体检测能力。在DINO-X中一项非常实用的功能，即无提示物体检测，该功能允许用户在不提供任何提示的情况下检测输入图像中的任何物体。此功能可以无缝检测和识别图像中的所有物体，而无需任何用户输入。

对象分割

DINO-X 对象分割

在 Grounding DINO 1.5 的基础上，DINO-X 不仅能够基于文本提示进行开放世界物体检测，还能为每个物体生成相应的分割掩码，提供更丰富的语义输出。这个就跟meta 发布的分割一切V2 模型类似，提供开发世界中的对象分割实例。

根据区域进行检测

DINO-X 自定义视觉检测

此外，DINO-X 还支持基于用户定义的视觉提示进行检测，即在目标物体上绘制边界框或点。DINO-X是一种强大的以对象为中心的视觉模型，旨在推动开放世界对象检测的发展。旗舰模型 DINO-X Pro 在 COCO 和 LVIS 零样本基准测试中创下了新纪录，检测准确率和可靠性显著提高。

为了使开放世界对象检测变得简单，DINO-X 不仅支持基于文本提示的开放世界检测，还支持使用视觉提示和自定义提示进行对象检测。此外，DINO-X 将其功能从检测扩展到更广泛的感知任务，包括分割、姿势估计和对象级理解任务。

为了使更多边缘设备上的应用程序能够实时检测对象，IDEA还开发了 DINO-X Edge 模型，进一步扩展了 DINO-X 系列模型的实际应用。也可以直接在deepdataspace上进行试用。

https://github.com/IDEA-Research/DINO-X-APIhttps://deepdataspace.com/homehttps://deepdataspace.com/blog/7