Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

政治电子邮件提取排行榜

Posted on 2025-04-09

政治电子邮件提取排行榜

德里克·威利斯 (Derek Willis) 收集“几乎每个委员会的政治筹款电子邮件”——每月 3,000-12,000 封——并根据他去年 11 月收集的 1,000 封电子邮件创建了法学硕士基准。

他在这篇博文中解释了排行榜。目标是让法学硕士从电子邮件中包含的免责声明文本中正确识别委员会名称。

以下是他使用 Ollama 运行提示的代码。它使用这个系统提示:

Produce a JSON object with the following keys: 'committee', which is the name of the committee in the disclaimer that begins with Paid for by but does not include 'Paid for by', the committee address or the treasurer name. If no committee is present, the value of 'committee' should be None. Also add a key called 'sender', which is the name of the person, if any, mentioned as the author of the email. If there is no person named, the value is None. Do not include any other text, no yapping.

Gemini 2.5 Pro 目前以 95.40% 的成绩位居榜首,但新款 Mistral Small 3.1 以 85.70% 的成绩排名第五,对于本土机型来说已经相当不错了!

将 AI 模型性能与模型(JSON 文件名)、总记录、委员会匹配和匹配百分比列进行比较的表格。显示 7 个模型,每个模型有 1000 条记录:gemini_25_november_2024_prompt2.json (95.40%)、qwen25_november_2024_prompt2.json (92.90%)、gemini20_flash_november_2024_prompt2.json (92.40%)、 claude37_sonnet_november_2024_prompt2.json (90.70%)、mistral_small_31_november_2024_prompt2.json (85.70%)、gemma2_27b_november_2024_prompt2.json (84.40%) 和 gemma2_november_2024_prompt2.json (83.90%)。

我在上个月的 NICAR 数据新闻会议上的演讲中说过,我们需要我们自己的评估,但没有意识到德里克自一月份以来就一直在运行评估。

通过@dwillis.bsky.social

标签: Gemini 、 evals 、 ai 、 ollama 、 llms 、 mistra 、 derek-willis 、生成人工智能、数据新闻、即时工程

原文: https://simonwillison.net/2025/Apr/8/political-email-extraction-leaderboard/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme