Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

麻省理工学院最新的计算机视觉算法将图像识别到像素

Posted on 2022-04-21

对于人类来说,识别场景中的物品——无论是鳄梨还是 Aventador、一堆土豆泥还是外星母舰——就像看它们一样简单。但对于人工智能和计算机视觉系统,开发对周围环境的高保真理解需要更多的努力。嗯,还要努力。大约 800 小时的手动标记训练图像工作,如果我们具体一点的话。为了帮助机器更好地了解人们的行为方式,麻省理工学院 CSAIL 的一组研究人员与康奈尔大学和微软合作开发了 STEGO,一种能够识别图像到单个像素的算法。

想象一下环顾四周,但作为一台计算机

麻省理工学院

通常,创建 CV 训练数据涉及人类在图像中的特定对象周围绘制框 – 例如,围绕坐在草地上的狗的框 – 并用里面的东西(“狗”)标记这些框,以便 AI 训练就可以从草丛中分辨出狗。相反,STEGO(具有基于能量的图优化的自监督变压器)使用称为语义分割的技术,该技术将类标签应用于图像中的每个像素,以使 AI 更准确地了解周围的世界。

带标签的框将包含对象加上框内边界内周围像素中的其他项目,语义分割标记对象中的每个像素,但只标记构成对象的像素——你得到的只是狗像素,而不是狗像素加上还有一些草。它相当于在 Photoshop 中使用智能套索与矩形选框工具的机器学习。

这种技术的问题是范围之一。传统的多镜头监督系统通常需要数千(如果不是数十万)标记图像来训练算法。将其乘以 65,536 个单独的像素,甚至构成单个 256×256 图像,现在所有这些都需要单独标记,所需的工作量很快就会变得不可能。

相反,“STEGO 会寻找出现在整个数据集中的类似对象,”CSAIL 团队在周四的新闻稿中写道。 “然后,它将这些相似的对象关联在一起,在它学习的所有图像中构建一个一致的世界视图。”

“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像,如果没有专业知识,很难知道要寻找什么物体。在新兴领域,有时甚至人类专家都不知道正确的对象应该是什么,”麻省理工学院 CSAIL 博士生、微软软件工程师和该论文的主要作者马克汉密尔顿说。 “在这些类型的情况下,你想设计一种在科学边界上运行的方法,你不能依靠人类在机器之前弄清楚它。”

STEGO 在各种图像领域进行训练——从家庭内部到高空航拍——STEGO 将以前的语义分割方案的性能提高了一倍,与人类控制的图像评估密切相关。更重要的是,“当应用于无人驾驶汽车数据集时,STEGO 以比以前的系统更高的分辨率和粒度成功地分割了道路、人和路牌。在来自太空的图像上,该系统将地球表面的每一平方英尺分解为道路、植被和建筑物,”麻省理工学院 CSAIL 团队写道。

想象一下环顾四周,但作为一台计算机

麻省理工学院

“在制作用于理解潜在复杂数据集的通用工具时,我们希望这种算法可以自动化从图像中发现对象的科学过程,”汉密尔顿说。 “在许多不同的领域中,人工标记的成本非常高,或者人类根本不知道具体的结构,例如在某些生物和天体物理学领域。我们希望未来的工作能够应用于非常广泛的数据集。由于您不需要任何人工标签,我们现在可以开始更广泛地应用 ML 工具。”

尽管 STEGO 的性能优于之前的系统,但它确实存在局限性。例如,它可以将面食和粗粒识别为“食品”,但不能很好地区分它们。它还会被无意义的图像弄糊涂,例如坐在电话听筒上的香蕉。这是吃货吗? 这是鸽子吗? STEGO无法分辨。该团队希望在未来的迭代中增加一点灵活性,允许系统识别多个类下的对象。

原文: https://www.engadget.com/mit-computer-vision-algorithm-identifies-images-down-to-the-pixel-130051112.html?src=rss

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Lou Plummer
  • Matt Stoller
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • Thinking Deep & Wide
  • Tim Kellogg
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme