文 | 华商韬略 熊剑辉
今年以来,从DeepSeek、宇树机器人,到“我国版阿斯麦”新凯来……一大批我国科技立异冷艳世人。
很多人并不知道,这背面都闪耀着华为的身影。
特别是华为云,一边在芯片底层深耕,一边以CloudMatrix瞄准超节点冲击,将练习、推理、具身智能全面推上云端,终成英伟达之外的“算力第二极”。
今日,即使英伟达AI算力仍然占优,却悄然损失独占的“铁王座”。
当我国再次面临科技链的硬关闭,华为的超节点打破,正引领我国AI迈向更自主、更普惠、更推翻的新年代。
【超节点包围】
2025年3月18日,美国加州圣何塞。
在声称全球“科技春晚”的英伟达GTC大会上,黄仁勋重磅发布了全新的Blackwell Ultra GPU,以及根据该芯片的NVL72服务器,震动国际。
由8个NVL72机架组成的完整版Blackwell Ultra DGX超节点,算力高达11.5 ExaFLOPS FP4。
算力爆表背面,英伟达的“超节点技能”,才是不传之秘。
什么是“超节点”?
简略来说,超节点是一种打破性的智算硬件架构。
在传统的AI服务器里,一张核算卡中仅能包容8块GPU芯片。这导致GPU之间传输速度快,但核算卡之间传输速度慢。
原本,这不是什么大问题。可现在,随同AI兴起,职业巨子动不动要衔接起不计其数、甚至10万计的GPU,使其逐渐成了一个大费事。
一个典型的事例是,当年Meta为练习4050亿个参数的Llama 3大模型,运用了包括16384块NVIDIA H100 80GB GPU的集群。
常言道:三个和尚没水喝。更何况,这是16384个“和尚”挑“三峡”,导致均匀3小时就发生一次意外报错,浪费了巨量的时刻、算力、人力本钱。
而要处理这个大问题,一要将AI服务器进一步集成,二要前进算卡间的网速。
NVL72超节点技能,因而应运而生。
简略了解,NVL72便是一个装了72张GPU的超级AI服务器,算卡之间经过NVLink网络技能衔接,令AI的算力和通讯速度几许倍数提高。
NVL72基础上,还能不断叠加,变成NVL144、NVL288、NVL576……
超节点技能加持下,成百上千颗GPU不断叠加,却仍然能像一颗超级GPU相同,协同高速运转。
可这样的超节点技能,一度为英伟达独有,且是关闭生态,不容任何人插手。
对此,连谷歌、亚马逊都要另辟蹊径;遭受高端AI芯片禁运的我国,也只能无可奈何。
但不管遭受怎样的艰难险阻,我国人信任,必定能突出重围。
2024年9月,华为全联接大会,华为云发布了AI原生云基础设施架构CloudMatrix,经过核算、存储和网络技能的协同立异,打造“超节点+集群”体系算力处理方案。