[CV]《Block-RecurrentDynamicsinVision

[CV]《Block-Recurrent Dynamics in Vision Transformers》M Jacobs, T Fel, R Hakim, A Brondetta... [Harvard University] (2025) 深度不一定是长度，也可能是循环。长期以来，我们习惯将视觉Transformer（ViT）视为层层堆叠的阶梯，认为每一层都在执行独特的计算。本文提出了块循环假设（Block-Recurrent Hypothesis），彻底颠覆了这种认知。这项研究告诉我们：ViT的深度其实是一种被掩盖的循环。1. 块循环假设：深度的真相研究者发现，训练后的ViT在深度方向上会自动组织成几个连续的阶段。这意味着，原本几十层的复杂模型，实际上可以用极少数（比如2到3个）不断重复调用的功能块来重写。这不仅是表示层面的相似，更是功能层面的重用。2. Raptor：用循环重构模型为了验证这一假设，研究者开发了Raptor模型。令人惊讶的是，仅使用2个循环块，就能恢复DINOv2在ImageNet上96%的性能；增加到3个块时，性能恢复率达到了98%。这意味着，ViT在设计上虽然是前馈的，但在运行逻辑上却演化出了极高的算法简洁性。3. 随机深度的功劳为什么会产生这种循环结构？研究发现，训练过程中的随机深度（Stochastic Depth）起到了关键作用。这种正则化手段迫使模型层与层之间产生功能冗余，从而促进了块循环结构的涌现。4. 动力学解释：深度即流动当我们将深度视为一种离散时间的动力系统流时，奇妙的现象发生了：- 走向吸引子：所有Token的表征方向最终都会收敛到特定的角吸引子盆地中，表现出极强的自纠错能力。- Token的分工：CLS Token在后期会经历剧烈的重新定向以整合全局信息，而Patch Token则表现出强烈的集体相干性，类似于平均场效应。- 低秩坍缩：随着深度增加，层与层之间的更新会坍缩到极低维的子空间。这说明模型在后期并不是在做加法，而是在精简和聚焦。5. 深度思考：回归简洁这项研究揭示了一个深刻的规律：优秀的神经网络往往具有极低的算法复杂度（Levin Complexity）。模型在追求高性能的过程中，会自动发现并利用重复的算法原语。正如文中所言：在深度学习中，循环总会找到自己的出路。这种循环诱导的简洁性偏置，为我们理解大模型打开了一扇窗。如果复杂的模型本质上是简单的循环，那么我们离真正的机械可解释性（Mechanistic Interpretability）就又近了一步。原文链接：arxiv.org/abs/2512.19941