Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

使用 SVE 实现“strlen”

Posted on 2022-12-20

肖像2018facebook.jpg

在 C 中,字符串的长度由字符串末尾的 0 字节标记。因此,要确定字符串的长度,必须扫描它,寻找 0 字节。最近的 ARM 处理器具有强大的指令集 (SVE),非常适合此类问题。它允许您一次加载大型寄存器并进行宽比较(一次比较多个字节)。

然而,我们不想读取太多数据。如果您读取超出字符串的范围,您可能会访问另一个内存页面并触发分段错误。这可能会使您的程序崩溃。

值得庆幸的是,SVE 附带了一条加载指令,该指令只会在“第一个活动元素”上出错:只要您加载的第一个元素有效,就不会出错。

考虑到这一点,计算 C 字符串长度的简单算法如下:

  1. 加载寄存器。
  2. 将其中的每个字节与 0 进行比较。
  3. 如果有任何比较匹配,则定位匹配并返回相应的长度。
  4. 如果不是,增加寄存器大小(由 svcntb() 给定),然后重复。

使用内在函数,代码如下所示……

 size_t sve_strlen ( const char * s ) {  
   
  size_t len = 0 ;  
   
  而(真) {  
   
    svuint8_t 输入= svldff1_u8 ( svptrue_b8 ( ) , ( const uint8_t * ) s + len ) ;  
   
    svbool_t matches = svcmpeq_n_u8 ( svptrue_b8 ( ) ,输入, 0 ) ;  
   
    如果( svptest_any ( svptrue_b8 ( ) ,匹配) ) {  
   
      返回len + svlastb_u8 ( svbrka_z (匹配,匹配) , svindex_u8 ( 0 , 1 ) ) ;  
   
    }  
   
    len + = svcntb ( ) ;  
   
  }  
   
}  
   

在汇编中,代码如下所示……

主循环:  
   
        ldff1b { z0 . b } , p0 / z , [ x10 , x8 ]  
   
        添加 x8 , x8 , x9  
   
        cmpeq p1 。 b , p0 / z , z0 。乙, # 0  
   
        湾。当量。主循环  
   

我不讨论我的函数的细节,但它隐含地假设底层寄存器大小不大于 256。我建议在实际系统中使用此函数之前添加一个检查 svcntb() 是否不大于 256。

在方法论上很难针对系统的 strlen 函数进行基准测试。然而,我们可以测量为相当大的字符串退役的指令数,作为相对速度的指示。在 graviton 3 系统(亚马逊)上使用 GCC 11,我得到以下指标:

系统的strlen 每字节 0.23 条指令
SVE 每字节 0.15 条指令

虽然我现在不提倡采用 SVE 来替代 strlen,但考虑到我在几分钟内就完成了我的实施,这种潜力很有趣。

我的源代码可用。

图片来源:感谢 Denis Yaroshevskiy邀请我查看非故障负载。

更新:事实证明,strlen 是 ARM 在介绍 SVE 的幻灯片中使用的示例之一。乍一看,他们的实现看起来像我的,但更复杂。

原文: https://lemire.me/blog/2022/12/19/implementing-strlen-using-sve/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme