
有时,系统不仅需要拥有平面的 2D 摄像头视角,还需要能够理解场景的深度。双 RGB 摄像头可以通过对比两个略有不同的视角来感知深度,其原理与人眼的工作原理非常相似。这被认为是一种经济但有限的深度感知方法,至少在FoundationStereo出现并彻底颠覆之前的研究结果之前是这样。该链接提供了大量的交互式对比,您可以亲自体验一下,快去看看吧。
近距离的一盒无序工具很容易理解,这些结果对于系统来说是典型的。
FoundationStereo论文解释了研究人员如何利用机器学习来创建一个系统,该系统不仅可以超越现有的双 RGB 摄像头设置,甚至可以超越英特尔 RealSense 等主动深度感应摄像头。
FoundationStereo 专为强大的零样本性能而设计,这意味着它无需额外训练即可提供实用的通用结果,以应对任何特定场景或环境。该框架和模型可从项目的GitHub 代码库获取。
微软可能已经停止了 Kinect 的生产,英特尔也同样停止了 RealSense 的生产,但深度感应仍然是一项能够带来各种可能性并催生有趣项目的使能技术,例如可以让人通过深度传感器的眼睛看世界的耳机。
能够轻松快速地了解空间的物理布局是一项非常强大的工具,如果像这样的系统仅用两个 RGB 摄像头就能提供如此出色的效果,那真是个好兆头。观看下方视频,了解其实际效果。
原文: https://hackaday.com/2025/06/19/dual-rgb-cameras-get-depth-sensing-powerup/