Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Qwen2.5-1M:部署您自己的 Qwen,上下文长度高达 1M 代币

Posted on 2025-01-27

Qwen2.5-1M:部署您自己的 Qwen,上下文长度高达 1M 代币

阿里巴巴 Qwen 团队发布了非常重要的新版本。他们的公开许可(有时是 Apache 2,有时是 Qwen 许可,我很难跟上)Qwen 2.5 LLM 以前的输入令牌限制为 128,000 个令牌。这个新模型使用一种名为Dual Chunk Attention的新技术将其增加到 100 万,该技术于 2024 年 2 月首次在本文中描述。

他们在 Hugging Face 上发布了两个模型: Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M ,两者都需要 CUDA 并且都在 Apache 2.0 许可证下。

您需要大量VRAM 才能满负荷运行它们:

处理 100 万个令牌序列的 VRAM 要求:

  • Qwen2.5-7B-Instruct-1M :至少 120GB VRAM(跨 GPU 的总和)。
  • Qwen2.5-14B-Instruct-1M :至少 320GB VRAM(跨 GPU 的总和)。

如果您的 GPU 没有足够的 VRAM,您仍然可以使用 Qwen2.5-1M 模型来执行较短的任务。

Qwen 建议使用他们的 vLLM 自定义分支来为模型提供服务:

您也可以使用之前支持Qwen2.5的框架进行推理,但对于超过262,144个token的序列可能会出现精度下降的情况。

模型的 GGUF 量化版本已经开始出现。 LM Studio 的“官方模型策展人” Bartowski发布了lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF和lmstudio-community/Qwen2.5-14B-Instruct-1M-GGUF – 大小范围从 4.09GB 到 8.1GB 7B 型号为 7.92GB 至 15.7GB,14B 型号为 7.92GB 至 15.7GB。

这些可能无法很好地处理完整的上下文长度,因为底层llama.cpp库可能需要一些更改。

我尝试在 Mac 上使用Ollama运行 8.1GB 7B 模型,如下所示:

 ollama run hf.co/lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF:Q8_0

然后是法学硕士:

 llm install llm-ollama llm models -q qwen # To search for the model ID # I set a shorter q1m alias: llm aliases set q1m hf.co/lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF:Q8_0

我尝试像这样输入一个大的提示:

 files-to-prompt ~/Dropbox/Development/llm -e py -c | llm -m q1m 'describe this codebase in detail'

这应该给我llm 项目中的每个 Python 文件。首先通过ttok管道告诉我这是 63,014 个 OpenAI 代币,我预计 Qwen 的数量与此类似。

结果令人失望:它似乎只描述了流式传输的最后一个 Python 文件。然后我注意到令牌使用报告:

 2,048 input, 999 output

这对我来说表明有些东西不正常 – 也许 Ollama 托管框架正在截断输入,或者我正在使用的 GGUF 有问题?

当我弄清楚如何在 Mac 上使用 GGUF 权重通过新的 Qwen 模型运行更长的提示时,我会更新这篇文章。

通过VB

标签: llms , ai , qwen ,生成人工智能, llm , ollama

原文: https://simonwillison.net/2025/Jan/26/qwen25-1m/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme