Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

🔮 自传式研究与实验社会

Posted on 2026-04-03

科学是人类迄今为止发现的最可靠的知识生产方法。但从历史的大部分时间里来看,科学的运行成本也相当高昂。

几周前,他发布了 600 行 Python 代码,开始改变这种现状。他的自动研究(参见EV#565 )运行一个自主实验循环,其中人类设定战略方向,定义“好”的标准,然后智能体在既定规则范围内迭代优化,最终取得成功。在 Andrej 的初始实验中,该模型仅用两天时间就训练出了一个 GPT-2 级别的模型,速度提升了 11%,并发现了 20 项真正的改进。

Andrej Karpathy 谈 X

发布后不久,Shopify 的 CEO Toby Lütke 就利用自动研究功能对其公司内部模型 qmd 进行了测试;该模型一夜之间运行了 37 次实验,Toby 醒来后发现,一个拥有 8 亿参数的模型比他之前拥有 16 亿参数的版本得分高出 19%。Toby 并非机器学习工程师。

自动研究之所以强大,是因为它同时解决了两个问题。首先,它实现了部分知识生产过程的自动化。其次,它解决了智能体控制问题,也就是说,它能确保智能体始终专注于任务。如果给人工智能一个开放式的任务任务,或者优化的目标与预期不符,人工智能往往会偏离方向。令我欣喜的是,自动研究从设计之初就避免了这种情况。人决定汽车的行驶方向,而自动研究则始终掌控着方向盘。

过去一个月,我致力于将自动研究方法应用于机器学习以外的知识型工作,目标是搭建一个系统,能够针对大多数团队每周都会遇到的决策类型,开展结构化、低成本的实验。我将这个版本命名为AutoBeta ,完整的操作手册/技能将提供给下方的付费会员。

我们走吧!

立即订阅

测量问题

我第一次看到自动研究程序时,立刻就觉得它不一定非得是关于机器学习的。它的循环很通用——假设、测试、评分、迭代。所以我把它克隆下来,开始应用到我其他的工作中。

事情并没有完全按照我的预期发展。输出结果看起来不错,但我无法判断它们是否有所改进。与机器学习不同,机器学习的智能体可以从每次训练中获得内置的反馈信号,而知识工作却缺少这种反馈。定价决策不可能在五分钟内得到验证;而且,我写的段落大多数时候也无法告诉我论证是在变得更好,还是仅仅发生了变化。

这正是将自动研究应用于知识工作真正困难的地方。循环需要某种优化目标,而在知识工作中,这种目标并不存在。

因此,我构建了一个名为 AutoBeta 的自动研究版本,它可以应用于各种各样的业务问题。虽然它的技术上不如 Karpathy 的版本强大,但设计原则相同:我设定目标和约束条件,实验在循环内进行。

我唯一改动的地方是评分方式。我创建了一个“神谕”,一个由合成评委组成的评审团,他们会根据预先定义的标准对每个输出进行评分,并将所有评分汇总成一个单一的数字,供循环进行优化。

阅读更多

原文: https://www.exponentialview.co/p/autoresearch-and-the-experimental-society

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brent Simmons
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Slava Akhmechet
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme