近日,清华大学在《Nature》杂志上发表了一项开创性的研究成果:一款名为"天眸"(Tianmouc)的互补视觉芯片。这是首次在芯片层面模仿人眼结构,实现高速、高精度、高动态范围的视觉感知。
论文地址:https://www.nature.com/articles/s41586-024-07358-4
3.5研究测试:https://hujiaoai.cn
4研究测试:https://askmanyai.cn
Claude-3研究测试:https://hiclaude3.com
互补感知范式:两条通路协同工作开放世界场景对视觉传感器提出的种种挑战,如快速运动、极端光照等,以及由此导致的混叠、量化误差等问题。这些问题同样存在于自动驾驶等开放世界应用中,传统的传感器尝尝面临光照变化大、物体运动快等棘手问题。
针对这些难题,本文提出了一种互补视觉范式:以基元化表示为核心,构建面向认知和面向行动的两条互补通路,犹如人眼的腹侧和背侧通路,分别实现精确的语义理解和快速的运动响应。
这个范式的关键在于将视觉信息解析成多个基元,并将其组装成两条互补的通路:面向认知的通路和面向行动的通路,分别类似人眼的腹侧和背侧通路。通过这两条通路的协同,即可同时实现高精度的物体识别和快速的运动响应。
天眸芯:仿生结构 异构集成为实现这一范式,清华大学研究者们研发出"天眸"芯片。它采用了创新的混合像素阵列,分为模仿视锥细胞的"锥型像素"和模仿视杆细胞的"杆型像素",用于快速感知时空变化。整个像素阵列采用背照式设计,光纤从背面入射,有利于提高光子收集效率。
在人眼中的视网膜层,视锥细胞和视杆细胞分工协作,扩大了光照动态范围;在外侧膝状体,M通路和P通路以不同的时空分辨率编码视觉信号;到了初级视皮层,各种视觉基元得以提取;最终在高级视皮层,腹侧通路和背侧通路实现了对物体的识别和对运动的分析。这种分工与互补的思想,正是"天眸"芯片的设计灵感来源。
"锥型像素"和"杆型像素"的感光部分相似,都包括光电二极管、传输门控等。不同之处在于"杆型像素"集成了多个存储单元,可以在像素内部完成时序信息的保存,为时空查分计算做准备。
在"天眸"芯片中存在认知通路和行动通路,这两部分通路的读出电路稍有不同:认知通路采用高精度的模数转换电路,将锥型像素采集到的信号转换为密集数据矩阵;而行动通路则采用多级结构,先对杆型像素输出的时空差分信号进行稀疏化处理,再用自适应量化电路将其编码为指定位宽的数字脉冲序列,从而大幅降低数据量。
由于行动通路产生的时空差分数据具有显著的稀疏特征,芯片设计了一套行程编码机制:将数据按照发生的时间、像素位置、正负极性等属性归类组包,形成紧凑的数据帧,进而减少传输带宽。
非凡性能:速度、动态范围、带宽需求"天眸"展现出非凡的性能:最高1万帧/秒的感光速度、130分贝的动态范围、低至50MB/s的带宽需求。而且它可以同时提供高分辨率的物体细节和快速的运动信息。
从"天眸"芯片的量子效率曲线可以看出,无论是面向认知的通路还是面向行动的通路,该芯片在可见光范围内都有较高的光电转换效率,尤其在550nm波长附近达到峰值,这意味着"天眸"能够在各种光照条件下保持出色的成像质量。
得益于双通路互补设计,"天眸"能够兼顾低照度下的微弱信号检测和强光环境下的饱和度控制,实现高达130分贝的动态范围,远超传统的视觉传感器。
除此之外,"天眸"芯片能够避免因时空分辨率不足而导致的混叠等问题。以标准的Siemens星图卡为例,认知通路可以清晰分辨中心的精细结构,弥补了行动通路在空间分辨率上的不足;而在捕捉运动目标时,行动通路则能发挥高速成像的优势。二者互为补充,达到了更全面、更准确的感知效果。
"天眸"芯片在复杂场景下展现出先进的感知能力。当拍摄对象快速运动,同时伴有强烈闪光干扰时,行动通路的时间差分信号可能出现失真,但空间差分信号依然保持稳定。结合认知通路提供的纹理细节,最终得到了完整、清晰的目标轨迹。
"天眸"芯片在超高速成像下展现出带宽优势,得益于在像素内部进行时空差分计算,并采用自适应阈值控制,行动通路输出的数据具有极高的稀疏性,带宽需求显著降低,从而为高速成像扫清了瓶颈。
作者将"天眸"芯片于其他传感器进行横向测评,在考虑功耗和带宽的前提下,"天眸"的时空分辨率、动态范围等指标都达到了最先进水平,充分验证了互补感知范式的优越性。
开放世界性能测试"天眸"芯片在真实的开放世界场景中展现出了卓越的感知能力。研究团队将其集成到一个自动驾驶系统中,并在实际道路上进行了全面测试。
测试环境涵盖了白天、黑夜等不同光照条件,以及闪光干扰、隧道、异常目标出现等多种复杂情况。即便如此,"天眸"芯片依然能够迅速、准确地感知环境,为自动驾驶系统提供可靠的视觉信息。
得益于行动通路采用空间差分计算,芯片输出的目标轮廓信息几乎不受光照变化的影响,从而保证了感知算法的稳定性。
借助双通路的互补作用,芯片一方面对环境光adaptation 线性度的变化保持敏感,另一方面又能够抑制过曝和欠曝,在高动态范围下实现稳定成像。
基于行动通路输出的时空差分信息,自动驾驶系统可以计算目标的运动状态,并将其与环境背景进行比对,及时发现图中的三角警示牌等非正常模式的物体。
"天眸"芯片在复杂开放场景下同样展现出十分优异的感知效果。左侧是同时存在逆光、车辆密集、标志识别等多重挑战的cityscape;右侧则是一个快速移动的异常目标突然出现在视野中的案例。对于前者,"天眸"凭借双通路协同,在低照度下依然能够准确分割出车道线、交通标志牌等关键目标;对于后者,超高速的时空差分感知则是识别未知目标的利器。
"天眸"芯片从根本上突破了传统成像芯片的局限,首次在硬件层面实现了对人眼视觉机理的全面模仿。通过构建高度互补的"认知通路"和"行动通路","天眸"在高速成像、高动态范围、稀疏编码等方面取得了显著优势,且能耗和带宽需求大为降低。
相比现有的视觉传感器,"天眸"芯片的优越性体现在以下几点:
混合像素阵列对光信号的编码更为全面,突破了单一感光模式的限制;异构化的数据处理单元可根据不同感知任务灵活配置,实现速度、精度、功耗的最优平衡;端到端的仿生学设计使得"天眸"能够直接输出人眼视觉的中间表征,为后续智能算法的设计提供了更自然的接口。