Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

如果你希望获得法学硕士学位,那么 GPT-5 就很糟糕了

Posted on 2025-08-09

这篇文章其实跟 GPT-5 无关。当然,它发布了,但大家多少有些失望。真正让我感到困惑的是它为什么会发布。

他们期待的是 AGI,也就是人工智能之神,但得到的只是世界上最好的模型。非常令人失望

GPT-5 发布前几天,我读了一篇名为《Agentic Web:用 AI 代理编织下一代网络》的论文。这不是我通常喜欢看的论文,学术性不强。里面没有数学,也没有架构。它只是描绘了一幅未来的图景。

这就是我看待 GPT-5 的视角。

这篇论文描述了互联网的三个时代:

  • PC 时代——维基百科、Craig’s List 等;用户主动寻找信息
  • 移动/社交时代——Tik Tok、Insta等;内容通过推荐算法推送
  • Agentic Web —用户仅表达意图

3 个互联网的图像,我将在下面解释

人工智能领域已经充斥着数学和推理基准,以至于基准不再值得信赖。

我该如何测试法学硕士学位 (LLM)?

我会用它。如果它能改变我的工作或思维方式,那么它就是一个好的法学硕士。

o3 彻底改变了我的工作方式。GPT-4 也一样。GPT-5 没有,因为它已经走到了尽头。你再也无法写出真正引人入胜的法学硕士了,它们都太优秀了,大多数人都分不清它们。即使是那些很小的。

这周我和一个市场营销人员聊过。我给他们看了Claude Code 。他们甚至都不写代码,但他们坚持说它比他们之前用过的任何模型都要好 10 倍,甚至比 Claude 的还要好。我也有同样的感想,那些子代理确实很特别,它们可以快速放大。

克劳德代码是一种软件。

当然,它背后有一个坚实的模型。但它也有一些真正让它运转起来的功能。复制这些功能,你就成功了。

GPT-5 适用于代理网络

我第一次听到“代理网络”(agentic web)这个词时差点儿吐了。这听起来像是那种由风险投资引发的流行语,我对此敬而远之。

但这篇论文……

我希望人工智能能做生活中所有无聊的事情。浏览网站、做研究、填写表格等等。

像 GPT-5 和GPT-OSS这样的模型具有高度的代理性。所有顶级模型都朝着这个方向发展。它们将这些模型放入软件框架中,应用强化学习,如果能够有效利用工具,就能相应地更新权重。

我听到很多对 GPT-5 的批评,但没有一个是出自那些意识到它在执行代理任务时,与人接触间隔 2-4 小时的人。哇哦。

GPT-5 适用于代理网络。

是的,但我讨厌广告

好吧,我也是。不知道这话从何而来,但我不觉得事情会发展到这个地步。嗯,事情就是这样,但不是你想的那样。

报纸上说了这一点。人们需要卖东西,这一点不会改变。他们希望你买他们的东西。一切都一样。

区别在于代理。在代理网络中,一切都由代理来中介。

您不需要自己寻找一氧化碳监测器,而是要求您的代理商为您购买一个。

你是卖家,却想钻这个空子?广告操纵消费者,但消费者却不再购买。你操纵的是谁?嗯,是代理商。他们是代理网络中的决策者。

这篇论文称之为“代理人注意力经济” ,它也在同样的约束条件下运作。注意力是有限的,即使是代理人的注意力,你仍然需要他们来购买你的东西。

这篇论文做了一些预测,他们认为将会有经纪人(比如广告经纪人)来宣传可用的代理商和资源。所以我猜你会通过让你的产品看起来比实际情况更有用或更好来钻这个空子,从而吸引代理商。

基准测试

唯一重要基准是它对生活的改变有多大。

目前来看,我认为 10T 参数并不会真正提升这个基准。我也不认为使用 100T 数学 token 进行后续训练会带来太大的变化。

我对软件很感兴趣。我们现在正处于软件远远落后于法学硕士的阶段。代理线束设计中哪怕是最细微的改进,都能带来巨大的回报。

代理网络值得追求吗?我认为值得。它是“机器做有用的事情”的终极指标。GPT-5 在代理基准测试中名列前茅,显然是一个很好的模型。这很重要。它推动我们更接近这一愿景。

GPT-5 是通用人工智能吗?我不知道 😉

原文: http://timkellogg.me/blog/2025/08/08/agents

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme