麻省理工学院最新的计算机视觉算法将图像识别到像素

对于人类来说，识别场景中的物品——无论是鳄梨还是 Aventador、一堆土豆泥还是外星母舰——就像看它们一样简单。但对于人工智能和计算机视觉系统，开发对周围环境的高保真理解需要更多的努力。嗯，还要努力。大约 800 小时的手动标记训练图像工作，如果我们具体一点的话。为了帮助机器更好地了解人们的行为方式，麻省理工学院 CSAIL 的一组研究人员与康奈尔大学和微软合作开发了 STEGO，一种能够识别图像到单个像素的算法。

想象一下环顾四周，但作为一台计算机

麻省理工学院

通常，创建 CV 训练数据涉及人类在图像中的特定对象周围绘制框 – 例如，围绕坐在草地上的狗的框 – 并用里面的东西（“狗”）标记这些框，以便 AI 训练就可以从草丛中分辨出狗。相反，STEGO（具有基于能量的图优化的自监督变压器）使用称为语义分割的技术，该技术将类标签应用于图像中的每个像素，以使 AI 更准确地了解周围的世界。

带标签的框将包含对象加上框内边界内周围像素中的其他项目，语义分割标记对象中的每个像素，但只标记构成对象的像素——你得到的只是狗像素，而不是狗像素加上还有一些草。它相当于在 Photoshop 中使用智能套索与矩形选框工具的机器学习。

这种技术的问题是范围之一。传统的多镜头监督系统通常需要数千（如果不是数十万）标记图像来训练算法。将其乘以 65,536 个单独的像素，甚至构成单个 256×256 图像，现在所有这些都需要单独标记，所需的工作量很快就会变得不可能。

相反，“STEGO 会寻找出现在整个数据集中的类似对象，”CSAIL 团队在周四的新闻稿中写道。 “然后，它将这些相似的对象关联在一起，在它学习的所有图像中构建一个一致的世界视图。”

“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像，如果没有专业知识，很难知道要寻找什么物体。在新兴领域，有时甚至人类专家都不知道正确的对象应该是什么，”麻省理工学院 CSAIL 博士生、微软软件工程师和该论文的主要作者马克汉密尔顿说。 “在这些类型的情况下，你想设计一种在科学边界上运行的方法，你不能依靠人类在机器之前弄清楚它。”

STEGO 在各种图像领域进行训练——从家庭内部到高空航拍——STEGO 将以前的语义分割方案的性能提高了一倍，与人类控制的图像评估密切相关。更重要的是，“当应用于无人驾驶汽车数据集时，STEGO 以比以前的系统更高的分辨率和粒度成功地分割了道路、人和路牌。在来自太空的图像上，该系统将地球表面的每一平方英尺分解为道路、植被和建筑物，”麻省理工学院 CSAIL 团队写道。

想象一下环顾四周，但作为一台计算机

麻省理工学院

“在制作用于理解潜在复杂数据集的通用工具时，我们希望这种算法可以自动化从图像中发现对象的科学过程，”汉密尔顿说。 “在许多不同的领域中，人工标记的成本非常高，或者人类根本不知道具体的结构，例如在某些生物和天体物理学领域。我们希望未来的工作能够应用于非常广泛的数据集。由于您不需要任何人工标签，我们现在可以开始更广泛地应用 ML 工具。”

尽管 STEGO 的性能优于之前的系统，但它确实存在局限性。例如，它可以将面食和粗粒识别为“食品”，但不能很好地区分它们。它还会被无意义的图像弄糊涂，例如坐在电话听筒上的香蕉。这是吃货吗？这是鸽子吗？ STEGO无法分辨。该团队希望在未来的迭代中增加一点灵活性，允许系统识别多个类下的对象。

原文： https://www.engadget.com/mit-computer-vision-algorithm-identifies-images-down-to-the-pixel-130051112.html?src=rss