AI存储暗藏玄机 中国原创技术在美国大放异彩

近日,一篇《2100亿独角兽即将诞生!被英伟达、谷歌、xAI同时看中》的文章在AI业内流传,揭开了一个被国人忽…

近日,一篇《2100亿独角兽即将诞生!被英伟达、谷歌、xAI同时看中》的文章在AI业内流传,揭开了一个被国人忽略的AI新赛道——AI存储。

在中美科技竞争的大背景下,芯片一直是重中之重,说举国之力也不为过,而以Deepseek为代表的中国公司在芯片被“卡脖子”的情况下,在算法上的突破也获得了足够多的关注,但在这场大模型的全球争霸赛中,芯片(算力)和模型(算法)之外,还有一个至关重要甚至称得上“卡脖子”的领域,却被国人忽视,那就是AI存储。

AI 存储是AI产业的 “刚需”

公众一般都知道AI算力靠GPU,GPU尤其是高端GPU是稀缺资源,实际上在AI计算时还有一个“效率中枢”,决定着GPU的运行效率,这就是AI存储。

大模型训练/推理不只是算力竞赛,也是“数据管道”竞赛:把成山的训练样本、检查点(checkpoint)、特征向量在微秒级送进上万张 GPU。如果存储端跟不上节奏,昂贵的 GPU 就会闲着“等数据”,高额的算力投资被浪费。

从Google、英伟达、Hugging Face等公司的论文中可以看出,GPU的利用率往往只有50%左右。昂贵的GPU算力在AI计算时大约有一半被浪费,“是可忍孰不可忍”,于是AI产业界就削尖脑袋加以改进。提高存储性能,避免读写时卡顿就成为“刚需”。

AI存储是创新技术的蓝海

传统的存储技术并非为满足当今AI训练推理而设计,现有存储技术在面对规模越来越大的AI训练推理集群时已经越来越力不从心。

AI 训练需要处理海量数据,且数万张GPU卡都要共享训练参数。要保证读训练数据时数据流稳定,哪怕只有1%的微小抖动,都会导致高达数百GPU卡顿;AI训练还需要频繁写Check Point(相当于训练参数存档),写Check Point时这么多GPU同时集中写,这是传统存储系统不会经常遇到的情况;在分配训练数据时,海量小文件的读写是传统存储一直未能解决的难题, 有时仅文件列表加载就需耗时数小时;在推理时,长上下文又有新的存储需求……华为 MLPerf 测试数据显示,传统存储在AI训练场景中 GPU 利用率仅 30%。

因此迫切需要构建为AI专门设计的数据存储架构,能够低成本高效率地处理数据,让昂贵的算力不再被浪费。

Shared-Everything架构撑起300亿美元巨头

分布式存储是很多台服务器(称为服务器集群)组成的存储系统。传统分布式存储是Shared-Nothing架构的,即数据盘属于存储服务器私有。这就像商品都归本地供销社管理,每个人只能在本地供销社买东西,要去买其它地方的商品就必须让本地供销社和对方供销社协商,将对方货物调过来才能买。这种供销社之间的协商和调货被称为Cross Talk,是分布式存储最大的性能瓶颈。

而Shared-Everything架构则是数据盘在共享存储池,任何服务器都可以不经过其它服务器读写所有的盘。这就像电商,任何人不管在什么地点都可以直接下单购买,而无需供销社之间协商调货。Shared-Everything架构下数据路径更短,消除了Cross Talk这一性能瓶颈,性能有质的飞跃。

美国创业公司VAST Data宣称,Shared-Everything是分布式存储20年来第一次架构性创新,传统Shared-Nothing架构正在走向末路。我们可以理解为相当于电商会取代供销社。

VAST Data基于Shared-Everything架构的AI存储系统使得GPU利用率比传统存储技术提升 10–25 %,Checkpoint 时间从 10 分钟级降到 1分钟级。数据恢复速度提升 5–8倍,迅速成为了AI存储市场的独角兽。该公司2016年成立以来,获得了包括英伟达在内的多轮投资,客户名单包括马斯克旗下大模型创企x AI、皮克斯动画、zoom、谷歌,最新一轮估值更是高达惊人的300亿美元。

300亿美元估值意味着什么?要知道世界上最大的传统存储厂商EMC(也就是常说的“去IOE”中的“E”),2016年EMC被Dell时存储业务价值也不过245亿美元。这就像特斯拉的市值超越丰田、奔驰、宝马等传统汽车厂商一样,代表新架构对传统架构的超越。同时,这个数字甚至也超过了中国联通的市值。

Shared-Everything是中国原创技术

虽然Shared-Everything技术在美国大放异彩,但事实上该技术却是中国首创。多年前,中国的IT科学家王东临和他领衔的书生公司技术团队就发明了Shared-Everything技术(当时称为分布式共享存储技术),并研发了基于该技术的第一代SurFS分布式存储系统,性能非常出色,在当时世界上最快的分布式存储系统性能在500微秒左右时,SurFS提高到了60微秒左右,充分展现了Shared-Everything技术的优越性。

王东临是得过多项国家级科技荣誉、在中国IT业历史上留下多个足印的技术专家,陆续发明了多项国际领先的创新技术,有的(如电子印章技术)已经得到广泛应用,有的(如果中国软件业首个国际标准)树立了中国IT业的里程碑,有的(如Shared-Everything架构)仍然待字闺中。就在今年,他基于Shared-Everything架构设计的量子模拟机集群也同样打破了记录,用两颗普通CPU跑出了比英伟达8张GPU卡还高的性能;前不久,他还带领南开大学人工智能团队和北京大学量子神经网络团队做出了全球首个基于量子算力实现智能对话的AI大模型成果,其预印版论文刚刚发表……

2016年2月,书生公司申请了一批Shared-Everything技术架构的发明专利,并随后对第一代SurFS进行了开源,倪光南院士、时任工信部电子信息发展产业研究院院长卢山等领导出席了SurFS开源仪式。

image.png

开源的意义在于让公众都能共享创新成果(尤其是架构性的重大创新),让新技术能得到更广泛的应用。但开源也会被不劳而获的同行窃取,经常有人调侃说“美国一开源,中国就有了创新技术”。但这一次,在书生公司SurFS开源后不久,VAST Data公司成立了;在SurFS开源21个月后,VAST Data“发明了”Shared-Everything技术,并于2017年11月在美国申请了相关技术的专利。根据知识产权专业机构的分析,双方专利高度相似,技术方案完全覆盖,属同一个技术。

中国原创技术,会被美国用来收割中国吗?

目前,书生公司已经重启了新一代SurFS技术的研发,宣称新技术在核心技术指标上将超越VAST Data。日前,书生公司还向专利局提交了宣告VAST Data专利无效的申请。

AI竞赛的大幕已经拉开,芯片、模型……刀光剑影,电力、基础设施枕戈待旦,现在,存储领域的渔阳鼙鼓声响起。当VAST Data身后集结了英伟达、迪士尼、谷歌、x AI、chatGPT、CoreWeave等一系列美国AI公司,其客户名单中还包括NASA和美国能源部时,王东临、书生公司和他的Shared-Everything专利背后,应该有谁?VAST Data数月前刚在中国设立了总代理,将来会不会出现美国人用中国技术卡中国脖子的景象?

关于作者: 人民企业家

为您推荐