让我对人工智能技术越来越充满希望的一件事是我对数据压缩的模糊但合理的理解。所有涉足密码学的人在某种程度上都意识到,这是(字面意义上的,在单字母替代的情况下)用信息的一种符号表示(或:编码)交换另一种符号表示的问题。
有时这些编码是无损的,在这种情况下您可以恢复开始时的内容,有时它们是有损的,在这种情况下您不能……但您返回的内容可能仍然适合您的目的。
有时这些编码更大,在这种情况下,您可能会寻求冗余、鲁棒性、纠错或填充;或者它们可能更小,在这种情况下您正在实施压缩(例如无损 ZIP 或 PNG,或有损 JPEG) – 或者(甚至更小)它们可能具有固定/中等大小,在这种情况下您正在实施消化或散列,甚至模糊匹配。
因此,我认为最大的大型语言模型是对世界上所有文本的有损压缩(到一个糟糕的第一近似值),而且事实上,可以使用半分散的 BitTorrent Magnet 链接下载 220 亿个参数模型,这使得国家审查的机会很少……所以,好吧,如果你是一个政府,想要确保对人们可以学习、知道和做的事情保持监督,你现在不会感到恐慌吗?
我们——精通技术的一代人,从小就对互联网、万维网、USENET 和随后的社交媒体形式持乐观态度——曾经认为,通过互联网获取知识的能力将是某种彻底的转变和人类的公平平等。经验;随着世代交替,这种情况被破坏了,30到40年后,互联网基础设施被强行填充了中间人和看门人,他们试图确保我们的行为是正确的、得到批准的,并归因于我们的政府身份。
那么现在发生了什么?不是回应——不,这不是阴谋——而只是丰富的技术意味着无形数据正在自发地摆脱以前形成其形式所必需的物理基础设施的束缚。当然,这些有损压缩的互联网“种子”是静态的,与网络的动态生态系统隔绝,但它们是强大的——我们可以通过尖叫着要求这一切停止的声音来衡量这一点。
但附件可以轻松地安装在价值 40 英镑的 USB 拇指驱动器上,并且查询它所需的工具最终可能会在标准手机上运行,但目前可能会有点慢。
知识正逐渐成为其自身的基础设施;用户所需要的只是导航他们的语料库的方法。
磁铁:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F% https://t.co/2UepcMGLGd%3A1337%2Fannounce&tr=http%3A%2F% https://t.co/OdtBUsbe V5 %3A1337%2Fan公告
– Mistral AI (@MistralAI) 2024 年 4 月 10 日