文 | 华商韬略 熊剑辉
今年以来,从DeepSeek、宇树机器人,到“我国版阿斯麦”新凯来……一大批我国科技立异冷艳世人。
很多人并不知道,这背面都闪耀着华为的身影。
特别是华为云,一边在芯片底层深耕,一边以CloudMatrix瞄准超节点冲击,将练习、推理、具身智能全面推上云端,终成英伟达之外的“算力第二极”。
今日,即使英伟达AI算力仍然占优,却悄然损失独占的“铁王座”。
当我国再次面临科技链的硬关闭,华为的超节点打破,正引领我国AI迈向更自主、更普惠、更推翻的新年代。
【超节点包围】
2025年3月18日,美国加州圣何塞。
在声称全球“科技春晚”的英伟达GTC大会上,黄仁勋重磅发布了全新的Blackwell Ultra GPU,以及根据该芯片的NVL72服务器,震动国际。
由8个NVL72机架组成的完整版Blackwell Ultra DGX超节点,算力高达11.5 ExaFLOPS FP4。
算力爆表背面,英伟达的“超节点技能”,才是不传之秘。
什么是“超节点”?
简略来说,超节点是一种打破性的智算硬件架构。
在传统的AI服务器里,一张核算卡中仅能包容8块GPU芯片。这导致GPU之间传输速度快,但核算卡之间传输速度慢。
原本,这不是什么大问题。可现在,随同AI兴起,职业巨子动不动要衔接起不计其数、甚至10万计的GPU,使其逐渐成了一个大费事。
一个典型的事例是,当年Meta为练习4050亿个参数的Llama 3大模型,运用了包括16384块NVIDIA H100 80GB GPU的集群。
常言道:三个和尚没水喝。更何况,这是16384个“和尚”挑“三峡”,导致均匀3小时就发生一次意外报错,浪费了巨量的时刻、算力、人力本钱。
而要处理这个大问题,一要将AI服务器进一步集成,二要前进算卡间的网速。
NVL72超节点技能,因而应运而生。
简略了解,NVL72便是一个装了72张GPU的超级AI服务器,算卡之间经过NVLink网络技能衔接,令AI的算力和通讯速度几许倍数提高。
NVL72基础上,还能不断叠加,变成NVL144、NVL288、NVL576……
超节点技能加持下,成百上千颗GPU不断叠加,却仍然能像一颗超级GPU相同,协同高速运转。
可这样的超节点技能,一度为英伟达独有,且是关闭生态,不容任何人插手。
对此,连谷歌、亚马逊都要另辟蹊径;遭受高端AI芯片禁运的我国,也只能无可奈何。
但不管遭受怎样的艰难险阻,我国人信任,必定能突出重围。
2024年9月,华为全联接大会,华为云发布了AI原生云基础设施架构CloudMatrix,经过核算、存储和网络技能的协同立异,打造“超节点+集群”体系算力处理方案。
修改丨李勤
“下半年开端,抱负简直把渠道商手里的卡都买了。”一位知情人士说。
AI大模型创业催生的抢购算力潮,本年猛然搬迁到了轿车职业。以抱负、华为和小鹏轿车为首,向端到端智驾建议猛冲的公司,尤为急进。
和AI大模型技能趋同,端到端的智能驾驭技能,相同稀有十亿参数,也在向百亿级进发。算力便是这座数据熔炉的燃料。这也决议,端到端技能和算力资源拼抢,成了智能驾驭新的决胜规矩。
“李想(抱负轿车CEO)常常问我,算力资源够不行,不行再去买。”承受36氪专访时,抱负智能驾驭副总裁朗咸鹏曾表明。据36氪了解,现在抱负轿车现已囤够了万张算力卡,“一起还在物色数据中心的地址。”
7月,抱负的云端算力为2.4 EFLOPS ,到8月底,抱负算力现已陡增至5.39 EFLOPS。简直一个月时刻,抱负的云端算力添加了近3 EFLOPS。
相同,小鹏轿车宣告,到2025年,云端算力将从现在的2.51 EFLOPS添加到10 EFLOPS。
华为智驾也在两个月内迅速将云端练习算力规划从5EFLOPS扩张到7.5 EFLOPS。
这是什么概念?有智驾职业人士告知36氪,现在车企们运用的练习显卡主要是英伟达H100和A800。美国禁令后,市场上能流转的大多是A800。
据36氪轿车了解,一台A800服务器(含8张显卡)报价约为95万元。依照FP16精度核算,单张A800的算力为320TFLOPS,1 EFLOPS(等于1000000TFLOPS)大约可核算为3125张A800,即390个8卡模组。
按每8卡模组依照95万元价格核算,1 EFLOPS算力大约需求约3.7亿元。
也便是说,抱负轿车在曩昔1个多月,仅囤置算力芯片就消耗超10亿元,而小鹏想要完成下一年总算力方针,则需求消耗约37亿元。
尽管耗资巨甚,但不容车企松懈。智能驾驭技能现已在AI大浪潮下,产生新的范式革新:从传统计划的规矩驱动,变成了“端到端”计划的AI驱动、数据驱动。
想要量产端到端的智能驾驭产品,车企们需求先成为吞噬海量数据、巨大云端算力的猛兽。
特斯拉先成为“算力狂魔”。上一年9月,特斯拉AI练习芯片储藏不过万张左右,而在本年三季度财报会数字显现,现在特斯拉AI算力约等效为6.75万张英伟达H100芯片。一年时刻算力储藏翻超6倍。