Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

拥抱克隆人脸OpenAI 24小时深度研究

Posted on 2025-02-07

ai_64.png

一位匿名读者引用了 Ars Technica 的报道:周二,Hugging Face 研究人员发布了一款名为“Open Deep Research”的开源 AI 研究代理,由内部团队创建,作为 OpenAI Deep Research 功能推出 24 小时后的挑战,该代理可以自主浏览网页并创建研究报告。该项目旨在与 Deep Research 的性能相匹配,同时向开发人员免费提供该技术。 Hugging Face 在其公告页面上写道:“虽然强大的法学硕士现在可以免费开源,但 OpenAI 并没有透露太多有关深度研究背后的代理框架的信息。” “因此,我们决定开始一项 24 小时的任务,重现他们的结果,并在此过程中开源所需的框架!”与 OpenAI 的深度研究和谷歌使用 Gemini 实施自己的“深度研究”(在 OpenAI 之前于 12 月首次推出)类似,Hugging Face 的解决方案在现有的人工智能模型中添加了一个“代理”框架,使其能够执行多步骤任务,例如收集信息并构建最终呈现给用户的报告。开源克隆已经取得了可比的基准测试结果。仅经过一天的工作,Hugging Face 的开放深度研究在通用人工智能助手 (GAIA) 基准测试中的准确率就达到了 55.15%,该基准测试人工智能模型从多个来源收集和综合信息的能力。 OpenAI 的 Deep Research 在同一基准上单次响应的准确率达到 67.36%(当使用共识机制组合 64 个响应时,OpenAI 的得分高达 72.57%)。正如 Hugging Face 在其帖子中指出的那样,GAIA 包含复杂的多步骤问题,例如:“2008 年画作《乌兹别克斯坦的刺绣》中展示的哪些水果是 1949 年 10 月远洋客轮早餐菜单的一部分,该客轮后来被用作电影《最后的航程》的浮动道具?将这些项目作为逗号分隔的列表,根据它们在画作中的排列按顺时针顺序排列。从 12 点钟位置开始,使用每种水果的复数形式。”为了正确回答此类问题,人工智能代理必须寻找多个不同的来源并将它们组合成一个连贯的答案。 GAIA 中的许多问题都不是一件容易的事,即使对于人类来说也是如此,因此它们很好地测试了代理人工智能的能力。 Ars 指出,Open Deep Research“通过 API 建立在 OpenAI 的大型语言模型(例如 GPT-4o)或模拟推理模型(例如 o1 和 o3-mini)之上”。 “但它也可以适应开放权重的人工智能模型。这里的新颖部分是将所有这些结合在一起的代理结构,并允许人工智能语言模型自主完成研究任务。”该代码已在 GitHub 上公开。

twitter_icon_large.png facebook_icon_large.png

在 Slashdot 上阅读这个故事的更多内容。

原文: https://news.slashdot.org/story/25/02/06/216251/hugging-face-clones-openais-deep-research-in-24-hours?utm_source=rss1.0mainlinkanon&utm_medium=feed

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme