Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

最后,BERT 的替代品:ModernBERT 简介

Posted on 2024-12-24

最后,BERT 的替代品:ModernBERT 简介

BERT是 Google 于 2018 年 10 月发布的早期语言模型。与现代法学硕士不同,它并不是为生成文本而设计的。 BERT 接受了屏蔽标记预测的训练,通常应用于命名实体识别或情感分析等问题。 BERT 本身也不是很有用——大多数应用程序都需要您在其基础上微调模型。

在探索 BERT 时,我决定尝试dslim/distilbert-NER ,这是一种在 DistilBERT(原始 BERT 模型的较小蒸馏版本)之上进行微调的流行命名实体识别模型。这是我使用uv run运行该程序的笔记。

Jeremy Howard 的Answer.AI研究小组支持 ModernBERT 的开发,这是一种全新的 BERT 风格模型,应用了过去六年该领域进展的许多增强功能。

BERT 使用 33 亿个 token 进行训练,产生 1.1 亿和 3.4 亿个参数模型,而 ModernBERT 使用 2 万亿个 token 进行训练,产生 1.4 亿和 3.95 亿个参数模型。参数数量并没有增加太多,因为它被设计为在低端硬件上运行。它的 token 上下文长度为 8192,比 BERT 的 512 有显着改进。

我能够使用像这样的uv run来运行公告帖子中的演示之一(我不确定为什么我必须使用numpy<2.0但如果没有它,我会收到一个关于cannot import name 'ComplexWarning' from 'numpy.core.numeric' ):

 uv run --with ' numpy<2.0 ' --with torch --with ' git+https://github.com/huggingface/transformers.git ' python

然后这个Python:

进口火炬  
从变压器进口管道  
从pprint导入pprint  
管道=管道(  
    “填充掩模” ,  
    模型= “answerdotai/ModernBERT-base” ,  
    torch_dtype =火炬. bfloat16 ,  
)  
input_text = "他走向[面具]。"  
结果=管道(输入文本)  
打印结果(结果)

下载了 573MB 到~/.cache/huggingface/hub/models--answerdotai--ModernBERT-base并输出:

 [{ '分数' : 0.11669921875 ,  
  'sequence' : '他走到门口。' ,  
  “令牌” : 3369 ,  
  'token_str' : '门' },  
 { “分数” : 0.037841796875 ,  
  'sequence' : '他走到办公室。' ,  
  “令牌” : 3906 ,  
  'token_str' : '办公室' },  
 { “分数” : 0.0277099609375 ,  
  'sequence' : '他走到图书馆。' ,  
  “令牌” : 6335 ,  
  'token_str' : '库' },  
 { “分数” : 0.0216064453125 ,  
  'sequence' : '他走到门口。' ,  
  “令牌” : 7394 ,  
  'token_str' : '门' },  
 { “分数” : 0.020263671875 ,  
  'sequence' : '他走到窗前。' ,  
  “令牌” : 3497 ,  
  'token_str' : '窗口' }]

我期待尝试使用 ModernBERT 作为基础的模型。该模型发布附带一篇论文(更智能、更好、更快、更长:用于快速、内存高效和长上下文微调和推理的现代双向编码器)以及将其与 Transformers 库一起使用的新文档。

通过@benjaminwarner.dev

标签:人工智能、杰里米-霍华德、变形金刚、拥抱脸、 uv 、 python 、 nlp

原文: https://simonwillison.net/2024/Dec/24/modernbert/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme