自今年年初以来,Grass 悄然发布了一些自发布以来最重要的基础设施更新。其中大部分更新都是故意低调进行的。我们始终相信,在关键时刻,合适的人会关注到这些更新。
除了保持专注之外,我们也深知,在我们这个行业,逃逸速度就是你能找到的最好的护城河。我们拥有卓越的业绩记录,能够在机会尚未显现之前就发现它们,有时甚至在现有企业意识到之前就已然存在。如果不断地传达我们的方向,就会扼杀这一优势。
现在似乎是分享更多内容并开设新博客的最佳时机。
草地移动
Grass Mobile 已上线,并且其运行效果比我们预期的要好。
网站屏蔽移动 IP 极其困难。大多数移动流量会经过大型运营商级 NAT,这意味着数千名用户共享同一个基站的 IP 地址。要屏蔽一个用户,就需要屏蔽整个基站。即使发生屏蔽,美国的移动 IP 每小时也会至少轮换七次。这使得它们具有弹性、快速循环的特性,是我们实时数据基础设施的重要组成部分。
我们悄无声息地推出了这款应用,只分发了少量注册码,没有任何公告。几乎一夜之间,来自世界各地的超过 5 万台独立设备就连接上了它。
气氛十分热烈。
我们相信,移动设备将成为 Grass 达到实时上下文检索所需规模的必要条件。这也是未来任何人工参与工作最有可能的途径。如果我们将来需要大量人工标注的 Grass 数据,很可能就发生在移动设备上。
蚱蜢
我们最近开放了专用硬件单元Grasshopper的候补名单。
它专为 Grass 网络的高吞吐量贡献而设计;这对于网络规模的多模态数据收集尤为重要,并且能够支持多个低延迟连接并发代理各个节点。我们测试 Grasshopper 原型时,它能够以每秒 3-4 MB 的速度持续抓取数据。
仅这一点就非常强大,尤其是与 Grass 桌面节点相比,后者前 10% 的节点速度限制在每秒 250 到 750 千字节。但我们也在思考哪些其他类型的计算最终可能会转移到边缘:注释、分段、用于代理工作流的完全托管浏览器……
尚未做出承诺。但方向很明确。
这也是一个圆满的时刻。Grass 最初是一个 Chrome 扩展程序,于 2023 年 4 月上线,当时只有一个等待列表和一个模糊的登陆页面。没有任何产品。只有一个去中心化数据协议可能实现的想法,以及一小群相信这个愿景的人。
令人难以置信的是,人们的兴奋之情依然强烈,更令人难以置信的是,同一个社区一直坚持到最后。
视频搜索
它最初是我们为定制策展工作而使用的内部工具,但很快就成为了自己的产品。
公司将能够通过搜索场景中发生的事情(而不仅仅是字幕或元数据标签)来查找公共网络上任何视频中存在的任何时刻、物体或动作。这项核心技术旨在扩展到数十亿个视频,但目前我们只在一小部分视频上进行了封闭测试。人工智能实验室和研究人员已经在使用它,其他行业(内容创作者、广告技术、国防)的早期需求也令我们感到惊喜。
每一帧都附有机器生成的标签注释,形成一个密集的合成数据层,可以通过 API 进行搜索和检索。我们演示的界面只是一个前端,旨在帮助人们了解其可能性。真正的价值在于注释本身,以及大规模查询注释的能力。
我们对它的潜力还只是触及皮毛。有些人期待它第一天就能成为一款突破性产品。但基础设施并非如此。我们正在构建一个随着规模扩大而价值倍增的东西,而我们目前仍处于这个曲线的早期阶段。
我们关心的
有人对我们对于代币的立场有一些猜测(为什么我们没有更积极地“推销”它,或者更公开地谈论它的发展轨迹)。
事实很简单:我们专注于未来几十年的基础设施建设。
社区的积极参与和积极发言令我们感激不尽(说实话,也让我们倍感振奋)。显然,大家非常关心我们正在构建的东西。从第一天起,我们就竭尽全力地展现出我们同样的关心。我们:
- 拒绝了要求大量代币浮动量的中心化交易所(这确保了那些为 Grass 网络做出贡献的人将是第一天唯一拥有它的人)
- 拒绝让锁定的代币持有者质押(我们是第一批通过这种方式挑战现状的人之一)
- 在推出之前将 Wynd Labs 的所有知识产权转让给 Grass Foundation
- 确保所有商业合同都面向 Grass 基金会,而不是 Wynd Labs(从来没有一个“股权”实体直接从协议的商业成功中受益;代币是协议唯一相关资产)
我们还在大力投资物理基础设施,以减少对云服务的依赖。随着时间推移,我们的数据中心扩建将大幅降低成本。这些节省的成本将直接惠及网络的长远发展。
这些都不是浮夸之物,我们对此很满意。我们追求的不是短期关注,而是永恒的追求。
未来走向
九个月前,我们打赌多模态数据收集将是少数几个仍然适用缩放定律的领域之一。我们的赌注是对的。
从那时起,对大量不同视频、图像和音频数据集的需求激增。
与此同时,公共网络的访问也变得越来越困难。过去几个月,大多数托管多模态数据的主要平台都开始积极屏蔽数据中心的 IP 地址。这悄然将 Grass 置于一个非常特殊的境地。
即使是资源最丰富的实验室(包括 OpenAI)也表示,距离运行自己的互联网规模的网络爬虫还需要数年时间。他们的项目不断遭遇阻碍。
我们始终相信解决方案是一个无法被阻止的去中心化网络。
目前,我们看到的几乎所有需求都由训练驱动,而 Grass 作为各种机器学习工作流程的训练数据供应商,始终拥有一席之地。然而,我们始终坚信,最终目标是实时上下文检索。随着越来越多的计算周期最终从训练过程转向推理(有人可能会说,如果这不发生,人工智能就失败了),Grass 将被用于检索模型实时推理、行动和生成所需的上下文。
我们认为,人们与互联网互动的很大一部分将很快通过法学硕士(LLM)而非直接通过网站进行。几乎所有这些互动都需要实时访问网络。
Bing 最近关闭了它的 API,而谷歌从一开始就没有提供过这样的 API。这显然是由于技术限制。
我们还处于早期阶段,但正确的基础已经建立。
感谢在这段旅程中陪伴我们的每一个人。
很快会有更多内容。