Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

当一个人工智能给另一个人工智能的工作打分时

Posted on 2025-08-20

自从EvoBlog内部上线以来,我一直想改进它。其中一个方法就是让法学硕士来评判最佳帖子,而不是采用静态的评分系统。

我指定 Gemini 2.5 来担任评委。这篇文章就是我的成果。

最初的系统依赖于固定的评分算法。它计算字数、检查可读性分数,并应用严格的风格指南。这些算法虽然能够控制基本的质量,但却忽略了优秀写作的细微之处。

是什么让一段话比另一段更流畅?如何衡量真实的声音和公式化的内容?

EvoBlog 现在采用了不同的方法。LLM 评估员不再采用静态规则,而是从五个维度对每次尝试进行评分:结构流畅性、开场白、结论影响力、数据整合和语气真实性。 图像

理论上,奇迹发生在迭代改进周期中。

每一轮迭代之后,系统都会分析哪些内容有效,哪些无效。开头的引子得分低吗?下一轮迭代会强调第一段的强化。数据集成是否薄弱?

evo_blog_best_run_detail

LLM 评委实验的结果好坏参半。图表显示了 20 次迭代中性能的波动,没有明显的收敛模式。最佳运行结果与我的写作风格相似度达到 81.7%,比最初的 78.6% 提高了 3.1 个百分点。

但最终迭代得分为 75.4%,实际上比开始时的得分还要低。

让法学硕士担任评委听起来不错。但生成和评分的不确定性导致结果并不理想。

而且它价格昂贵。每 20 次迭代运行大约需要 60 次 LLM 调用,或者每篇文章大约 1 美元。所以,可能没那么贵!

但就目前而言,AI法官的效率还不够高。结论是:AI法官需要更多培训才能胜任庭审。

原文: https://www.tomtunguz.com/evolution-of-ai-judges-improving-evoblog/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme