文丨李安琪
修改丨李勤
“下半年开端,抱负简直把渠道商手里的卡都买了。”一位知情人士说。
AI大模型创业催生的抢购算力潮,本年猛然搬迁到了轿车职业。以抱负、华为和小鹏轿车为首,向端到端智驾建议猛冲的公司,尤为急进。
和AI大模型技能趋同,端到端的智能驾驭技能,相同稀有十亿参数,也在向百亿级进发。算力便是这座数据熔炉的燃料。这也决议,端到端技能和算力资源拼抢,成了智能驾驭新的决胜规矩。
“李想(抱负轿车CEO)常常问我,算力资源够不行,不行再去买。”承受36氪专访时,抱负智能驾驭副总裁朗咸鹏曾表明。据36氪了解,现在抱负轿车现已囤够了万张算力卡,“一起还在物色数据中心的地址。”
7月,抱负的云端算力为2.4 EFLOPS ,到8月底,抱负算力现已陡增至5.39 EFLOPS。简直一个月时刻,抱负的云端算力添加了近3 EFLOPS。
相同,小鹏轿车宣告,到2025年,云端算力将从现在的2.51 EFLOPS添加到10 EFLOPS。
华为智驾也在两个月内迅速将云端练习算力规划从5EFLOPS扩张到7.5 EFLOPS。
这是什么概念?有智驾职业人士告知36氪,现在车企们运用的练习显卡主要是英伟达H100和A800。美国禁令后,市场上能流转的大多是A800。
据36氪轿车了解,一台A800服务器(含8张显卡)报价约为95万元。依照FP16精度核算,单张A800的算力为320TFLOPS,1 EFLOPS(等于1000000TFLOPS)大约可核算为3125张A800,即390个8卡模组。
按每8卡模组依照95万元价格核算,1 EFLOPS算力大约需求约3.7亿元。
也便是说,抱负轿车在曩昔1个多月,仅囤置算力芯片就消耗超10亿元,而小鹏想要完成下一年总算力方针,则需求消耗约37亿元。
尽管耗资巨甚,但不容车企松懈。智能驾驭技能现已在AI大浪潮下,产生新的范式革新:从传统计划的规矩驱动,变成了“端到端”计划的AI驱动、数据驱动。
想要量产端到端的智能驾驭产品,车企们需求先成为吞噬海量数据、巨大云端算力的猛兽。
特斯拉先成为“算力狂魔”。上一年9月,特斯拉AI练习芯片储藏不过万张左右,而在本年三季度财报会数字显现,现在特斯拉AI算力约等效为6.75万张英伟达H100芯片。一年时刻算力储藏翻超6倍。
图源:特斯拉官网
这是适当恐惧的数字。现在特斯拉总算力约为67.5 EFLOPS,比照之下,上一年全球算力总规划为910 EFLOPS。
但在海量数据喂食和超大算力练习下,特斯拉根据端到端的FSD v12版别,供应了比以往更丝滑、拟人的智驾才干。这也诱使轿车职业进入这场数据和算力游戏。
端到端下的智能驾驭技能,是数据和算力的合谋。
关于端到端智驾所需求的数据,特斯拉曾给出过一些判别规范:一个端到端自动驾驭练习至少需求100万个、散布多样、高质量的clips(视频片段)才干正常作业。到了1000万个case后,体系才干会变得难以置信。
有职业人士告知36氪,一般1个clip在15-30秒左右,没有肯定固定的时刻长度。
特斯拉有适当显着的数据优势。现在特斯拉现已在全球卖出700万辆车,即使有用的数据车辆为百万辆,假如单车每天奉献一个clip,那么特斯拉每天就有百万个clips能被拿来练习。
也有职业人士向36氪假定,假如在云端练习一个80 亿参数的模型,至少需求在这个模型“炼丹炉”中投入1万个小时练习数据,而且每两周更新要更新一遍数据。
越早树立数据驱动的智驾闭环,车企的技能与产品壁垒就越厚,也越有机会将后来者拒之门外。
抱负表明,最晚下一年年头,会推出大约经过超越1000万clips练习出来的端到端+VLM。前段时刻小鹏智驾负责人李力耘也在揭露表明,小鹏端到端模型的练习数据量已到达2000万clips。
但高质量数据并不简单寻得。马斯克曾表明,有用的用户干涉行为(高价值的练习数据)捕捉正变得越来越难。“每行进 10000 英里,只要 1 英里对练习 FSD 神经网络有用。”
抱负也表明,现在超80万辆车主,但真实能供应高质量数据的用户只要3%。
多位智驾职业人士告知36氪,现在车企和智驾公司获取数据主要有2种方法。
一是从量产车上发掘。比方针对车企卖出的几十万台车,工程师会写下专门规矩,假如用户的驾驭行为契合条件,特定数据(经过脱敏处理)会被上传。车企用户也能够自动上传一些特别事例。
而智驾供货商,或许在量产车数据回传上没有优势,但内部往往会组成一支能优质驾驭的车队,专门道跑收集数据。
数据回传自身是一笔不小的本钱。据36氪轿车了解,一家头部智驾供货商公司,每年回传数据的流量费以亿元为单位。假如是新造车公司,这项费用开销会更高。
二是在存量数据中发掘数据。在前期智驾还不老练的阶段,车企和智驾公司往往堆集许多数据,许多都是无效数据,工程师只能经过一些算法规矩来挖取。
高质量数据作为养料,会决议智驾体系迭代的质量。这继续检测着车企的智驾自动化闭环才干:从数据收集、数据清洗、标示、练习、仿真验证、发版、解bug,再阅历新一轮闭环。
而这背面每一步的数据流转,都在吞噬算力资源。车企和智能驾驭技能公司们,好像难有退路。
端到端智能驾驭带来的收益正在触手可见。
在2023年末推出根据端到端的FSD后,马斯克曾发邮件催促一线出售让更多用户体会智驾的拟人才干,原因是FSD的体会变得更好了。
本年以来,特斯拉乃至采用了全员免费限时运用(北美区域)、订阅费从199美元/月下降至99美元/月,买断费用从1.2万美元下降至4500美元等方法,来提高FSD的浸透率。特斯拉还表明FSD将于下一年一季度在我国落地。这将有另一番商业幻想空间。
换句话说,“端到端”让智驾比过往任何时刻都挨近商业化。
在国内,“端到端”也在加快智驾商业化进程。
华为最早尝到智驾商业化甜头。上一年末,华为与赛力斯协作的问界新M7,上市两月余斩获10万个订单,智驾版用户超60%。
除了推出智驾版车型,华为还经过智驾软件包的方法进一步收费。而现在职业大多数车企智驾软件都是免费开放给用户。
跟特斯拉降价促销不同,华为智驾软件费用正在逐渐上涨。有鸿蒙出售人士告知36氪轿车,华为智驾ADS 1.0阶段买入价格是3000元,ADS2.0阶段买入是6000元,ADS3.0是1万元。“后续价格还会涨。”
而ADS 1.0到2.0到3.0版别,正是华为从传统多模块智驾逐渐转向了端到端智驾后,带来的技能和产品体会提高。
另一个尝到智驾技能盈利的选手是抱负。在增程+家庭车产品力满足感动用户的前提下,抱负从本年开端猛追补足智驾短板,其端到端智驾版别现已全量推送给一切车型MAX版别,智驾口碑上升。
本年二季度财报电话会议上,抱负轿车称其30万以上的车型AD Max(即智驾版别车型)订单占比挨近70%。而AD Max版车型比AD Pro版车型贵2万元。用户为更贵的车型买单,实际上也是在为智驾买单。
美国作家菲利普·迪克曾在小说《仿生人会梦见电子羊吗?》中描绘,仿生人具有爱情、会做梦,并希望具有一只活宠物。
端到端加持下,智驾体系或许现已开端“梦”到电子羊。但电子梦境的保持,需求许多资源灌注,车企与智驾公司也由此患上了数据、算力饥渴症。
除了卖车获取更多数据养料,车企智驾团队还在准备芯片算力资源。
特斯拉三季度财报电话会数据显现,现在特斯拉AI算力约等效为6.75万张英伟达H100芯片,总算力约为67.5 EFLOPS。
特斯拉称,到10月底,特斯拉还将添加2.1万张H100,可大致推测出,特斯拉到时总算力将达88.5 EFLOPS。
除了张狂购入英伟达显卡之外,特斯拉自研的芯片也在路上。马斯克此前在X上发帖称,其超级核算机Dojo 1到年末,将会有约8000台H100 GPU供应等效的练习才干。特斯拉此前希望是,Dojo进入投产后,其算力集群总规划能到达100 EFLOPS。
望不见顶的算力储藏,让国内车企玩家不敢简单掉队。
不过芯片限售后,英伟达的高端AI芯片H100难以在国内流转,国内企业更简单买到的,是英伟达针对我国市场推出的特供版芯片A800等,性能与价格都不如H100。
现在,华为智驾是国内算力储藏最高的玩家,达7.5 EFLOPS。有华为人士告知36氪,内部不只运用英伟达的练习芯片,一起还在运用华为自研的晟腾芯片,两者混合运用。晟腾东西链尽管不算特别好用,但由于自研的原因,供应足够,华为能在云端算力上开展很快。
抱负轿车则以5.39 EFLOPS 位居华为之后。而这背面,是万张左右的英伟达显卡储藏。
有职业人士给36氪算了一笔账:以A800芯片为例,依照深度学习练习一般适用的FP16精度来核算,单张A800算力为320 TFLOPS,那么5.39 EFLOPS算力完成,需求超1.68万张A800。(抱负不完满是A800,此处仅大致核算,1EFLOPS=1000PFLOPS=1000000TFLOPS)
有职业人士告知36氪,本年AI大模型公司算力抢购热潮消退后,云端练习显卡相对好买。上一年A800的8卡模组价格轻松卖超百万元,现在回落到95万元左右。即使如此,国内车企玩家想要囤积算力,依然是一笔巨额投入。
抱负的方针是年末到达8EFLOPS。据36氪了解,抱负此前现已与云厂商火山引擎联合树立数据中心,但现在还在准备新的数据中心选址。
小鹏智驾中心算力则是2.51 EFLOPS,同理可换算为超7800张A800,小鹏的方针是2025年算力将达10 EFLOPS 以上。蔚来现在的云端算力是1.4 EFLOPS,可换算为超4300张A800。
能够比照的是,据工信部信息,到2024年6月,国内算力规划达246 EFLOPS(根据FP32核算)。假如换算成FP16,即492EFLOPS。而华为、蔚小理4家企业云端算力总和,就占全国算力规划约3.5%。
但端到端不只是巨子的游戏,中小玩家也在挤进围场。智驾供货商往往联合车企快速攻入战场,比方呈现了智己与Momenta、长城与元戎启行等组合。
据36氪轿车了解,一些头部智驾供货商的练习芯片也达千张等级。如Momenta、地平线等上一年就跟火山引擎达到协作,订单在亿元等级。
曩昔两年,全球都堕入了AI大模型张狂状况。国内AI大模型公司的创业进场门票高达5000万美元,现在估值最高的大模型公司“月之暗面”身价现已去到236亿元。
现在国内头部AI大模型公司正朝着万亿参数量模型开展,这背面也需求巨大的算力池支撑。阶跃星斗,Kimi等大模型公司,都在经过与云厂商协作来建立万卡集群练习。
现在相同的局势在轿车职业演出。车企们不甘心只卖车,而是朝着AI科技公司的方向进发。车企们天然具有海量数据资源,在大模型大算力的加持下,目光现已投向了更广的无人车、具身智能等方向。
他们需求在菲薄的赢利水平下,投入巨资,竞逐越来越高的算力数字。这能耐久吗?轿车职业正堕入价格激战,假如把AI作为决胜筹码,这场“经费在焚烧”的算力游戏才刚刚开端。
3月28-29日,由九三学社浙江省委会、我国科学院大学、浙江科技金融立异服务中心联合主办的第七届全国金融大数据及AI战略交融打开大会在杭州市临平区成功举行。此次大会邀请了300余位院士专家、企业代表参...
时政眼|最高标准民营企业座谈会开释了什么信息?这次民营企业座谈会的时刻点放在了新春伊始、全国两会前,一般来说,“座谈”意味着定见沟通、问题评论,我们一同想办法、提对策,为民营企业面临的对立困难寻求破解...
AI浪潮席卷千行百业的大布景下,家电巨子正竞相比赛AI家电蓝海赛道。
3月20日,2025年我国家电及消费电子博览会(AWE2025)在上海新世界博览中心拉开帷幕。据悉,本届展会以“AI科技、AI日子”为主题。AWE官方表明,本届展会招引千余家全球抢先的家电及消费电子企业参展,“出现AI赋能的才智日子新产品、新方案、新场景”。
《我国经营报》记者注意到,在本届AWE2025,许多家电巨子密布推出一系列AI家电新品,如海尔智家对外展出一系列搭载“AI之眼”的新产品。海尔智家方面表明,AI之眼系列黑科技进一步为用户分管了家务。“意味着海尔才智家庭开端从‘帮人家务’迈向‘无人家务’。”
“AI未来对家电工业链各环节改造不行忽视。”我国银河证券以为,数字化和IoT技能在曩昔十年对工业链晋级继续输出积极影响。“从开始的营销、出售、分销到出产、企业运营如财务管理等各个环节,终究完成了供应链数字化、黑灯工厂、途径扁平化、出售电商化等重大变革。”
AI赋能“无人家务”潮起
人工智能技能加快迭代,也在推动传统家电工业转型晋级,在AWE2025上,“AI+家电”成为抢手词汇。
揭露信息显现,AWE2025会聚全球家电与消费电子范畴顶流展商阵型,包含博世家电、Fisher&Paykel等世界品牌,也包含海尔智家、TCL等国内家电巨子与细分范畴龙头企业,以及华为、宇树等科技立异与AI生态领军企业。
本报记者 方超 石英婧 上海报导AI浪潮席卷千行百业的大布景下,家电巨子正竞相比赛AI家电蓝海赛道。3月20日,2025年我国家电及消费电子博览会(AWE2025)在上海新世界博览中心拉开帷幕。据悉,...
前几年广受本钱追捧的GPU(图形处理器)这一硬核赛道正在步入洗牌期,一些本来备受瞩目的通用GPU规划企业先后堕入运营窘境。与此一起,有头部企业持续求新求变,已步入AI(人工智能)中心战场。
关于职业现状,北京社科院研究员王鹏向证券时报记者剖析,当时国产GPU工业处于快速展开与洗牌并存的阶段。一方面,跟着AI大模型的需求激增,国产GPU商场敏捷兴起,出现出如摩尔线程、壁仞科技等一批具有立异才能的企业。这些企业在技能研制、产品立异等方面取得了显着展开,为国产GPU职业注入了新的生机。另一方面,商场竞争也日益剧烈,部分草创企业因为资金链断裂、技能瓶颈等问题堕入窘境,乃至面对裁人、诉讼等危险。
“久远来看,国产GPU职业仍具有宽广的展开前景。这源于人工智能、大数据、云核算等技能的快速展开,对高功能GPU的需求持续添加;一起,国家方针对半导体工业的支撑力度不断加大,为国产GPU职业供给了杰出的展开环境。此外,跟着国产芯片公司在生态构建、技能立异等方面的不断尽力,国产GPU有望逐步缩小与世界抢先水平的距离。”王鹏说。
几家欢欣几家愁
近来,国产GPU独角兽壁仞科技一则动态引起业界注重。该公司在上海证监局处理IPO教导存案挂号,教导券商为国泰君安。这是继本年8月26日燧原科技教导存案陈述发布后,又一家发动IPO的上海AI芯片企业。
壁仞科技创立于2019年,致力于研制原创性的通用核算系统,树立高效的软硬件途径,一起在智能核算范畴供给一体化的解决计划。到现在,公司已完结多轮融资,揭露融资总额超越50亿元,投资方包含启明创投、IDG本钱、中芯聚源、格力创投等。
现在,壁仞科技首款国产高端通用GPU(GPGPU)壁砺系列已量产。在9月举办的2024全球AI芯片峰会上,壁仞科技还初次发布了其自研的异构GPU协同练习计划,该计划打破了大模型异构算力孤岛难题,完成了在本乡异构多GPU芯片算力练习技能范畴的初次打破。
另一家国内GPU独角兽企业也有新动作。本年7月,摩尔线程宣告对其夸娥(KUAE)智算集群解决计划进行严重晋级,从当时千卡等级大幅扩展至万卡规划。摩尔线程创始人兼CEO张建中表明,在多元趋势下,万卡已是AI模型练习主战场的标配。
事实上,在国内,万卡集群建造正高歌猛进。上一年7月,华为昇腾AI集群规划从开始的4000卡集群扩展至16000卡,是国内首个万卡AI集群。
不过,当时国产GPU工业的分解亦非常显着,一些本来备受瞩目的企业连续堕入窘境。本年8月底,曾取得2024年度重庆市“独角兽企业”称谓的象帝先被曝约400位职工被裁。公司在回应中坦陈:“展开面对必定的商场调整压力……正在进行安排结构和人员装备的优化等……并寻觅外部融资时机。”另一方面,象帝先股东还在申述其创始人唐志敏,因其未能筹措到许诺的5亿元B轮融资。
在象帝先堕入窘境之前,同处在GPU赛道的砺算科技也曾预警。至本年8月19日,东芯股份公告拟以不超越2亿元收买砺算科技37.88%股份,砺算科技的资金紧张局势方得以缓解。
GPU占AI芯片
多半比例
在中关村物联网工业联盟副秘书长袁帅看来,当时国产GPU职业处于一个杂乱而要害的转型期,短期职业呈现降温文分解,首要是因为商场竞争加重、技能门槛进步、本钱落潮等要素导致企业资金压力增大。在此布景下,部分实力较弱的草创企业在面对应战时往往愈加软弱,而头部企业则凭仗其技能实力、商场布局和资金优势逐步锋芒毕露。
按界说和运用看,GPU起初是一种显现芯片,用于加快核算机上的图画处理。跟着技能进步和运用规模的扩展,GPU衍生出了GPGPU,后者是经过运用GPU并行处理才能特别强、核算能效比高的特色,处理更为杂乱的核算使命(如AI模型练习与推理等)。基于此,现在的GPU已被广泛运用于人工智能、虚拟现实、游戏、科学核算等许多范畴。
IDC数据显现,估计到2025年,GPU仍将占有全球AI芯片多半商场比例。Gartner此前猜测,2023年全球人工智能芯片(包含GPU、TPU等)的商场规划到达530亿美元,并估计在2024年添加至671亿美元。到2027年,全球人工智能芯片商场规划估计到达1194亿美元。
从职业格式来看,作为GPU的发明者,英伟达占有肯定抢先位置。Jon Peddie Research(JPR)数据显现,2024年榜首季度英伟达的全球AIB显卡(也称独立GPU)商场比例飙升至88%,而AMD的商场比例下降至12%。JPR估计,2024年第二季度,AI练习器GPU的出货量将持续添加,而游戏AIB商场或许相等或走低。在AI芯片主战场,据TechInsights数据,英伟达2023年的数据中心GPU出货量约为376万片,比2022年多出近100万片,商场占比98%,收入达362亿美元。压倒性打败了AMD和英特尔等竞争对手。
微软公司和Meta等数据中心运营商运用英伟达的芯片来开发和运转AI模型,巨大的需求使其销售额和股价飙升。英伟达市值在本年6月曾登顶全球榜首,到达3.33万亿美元。最新财报显现,在英伟达Hopper(GPU构架途径)、GPU核算和网络途径微弱需求的推进下,公司数据中心本年第二季度收入到达262.72亿美元。
英伟到达达现在效果凭的是什么?袁帅告知证券时报记者,这首要源于英伟达在GPU规划、制作工艺以及软件优化等方面具有深沉的技能堆集,其产品在功能、功耗比和安稳性等方面均处于职业抢先位置。一起,该公司树立了完善的生态系统,包含CUDA途径、软件开发工具包(SDK)以及丰厚的第三方运用支撑等,为开发者供给了快捷的开发环境和广泛的运用场景。
“英伟达的芯片产品先进且功能强壮,配套软件生态完善浸透率高,而且产品迭代进化速度快速,所以商场位置尚难以撼动。”深度科技研究院院长张孝荣以为。
时机和应战并存
国内商场方面,自2019年以来,一批国产GPU草创公司先后建立,其间出现了壁仞科技、摩尔线程、燧原科技等AI芯片规划独角兽。一起,还有一批老牌芯片规划公司也入局GPU范畴。
这些公司的时机在于美国出口控制布景下的国产代替。2022年10月,美国政府制止英伟达向我国出口高功能H100、A100芯片。英伟达随后专门面向我国商场推出了不违背美国出口控制要求的A800和H800芯片,至上一年10月,这两项芯片也被约束。2024年2月,英伟达向我国商场特供的H20芯片承受预定,但该芯片与H100装备比较,GPU中心数量削减41%,功能下降28%。对此,英伟达2023年11月曾泄漏,数据中心事务两成以上受出口控制影响。
与此一起,国内GPU厂商正迎头赶上。IDC在2023年中发布的一项我国AI加快卡(揭露商场)出货量核算显现,2022年上半年到2023年上半年,我国AI加快卡出货约109万张,英伟达商场比例为85%,华为市占率为10%,百度市占率为2%,寒武纪和燧原科技均为1%。
从国内产品效果来看,不只华为昇腾系列体现杰出。2024年5月份,摩尔线程与智谱AI展开了新一轮GPU大模型适配、功能测验。结果表明,在推理方面,摩尔线程自研全功能GPU显着优于基准比照产品RTX 3090和RTX 4090;在练习方面,摩尔线程夸娥千卡智算集群的练习精度与A100集群比较,差错在1%以内,而集群功能扩展系数超越90%,模型算力运用率(MFU)与A100集群适当。
壁仞科技则于2022年8月推出选用7nm制程的GPGPU芯片BR100,该芯片峰值算力到达世界厂商彼时在售旗舰产品3倍以上,创下国内互连带宽纪录。
不过,应战也随之而来,一些职业抢先企业先后被美国政府“盯上”。2022年12月,寒武纪等36家被美国政府列入“实体清单”。2023年10月,壁仞科技、摩尔线程等亦被添加到实体清单中。
这对相关企业影响几许?寒武纪在2024年半年报中表明,公司及部分子公司已被列入“实体清单”,将对公司供应链的安稳形成必定危险。受“实体清单”等供应链不利要素影响,公司上半年营收6476.53万元,较上年同期下降43.42%。
生态建造待完善
王鹏指出,当时世界政治经济环境的改变对GPU职业产生了必定影响。特别是美国对我国AI工业的镇压方针约束了国内相关企业的进口途径和供应链安稳性。
袁帅向证券时报记者表明,在面对外部封闭前提下,国产GPU厂商要站稳脚跟并在高端AI芯片范畴争得一席之地并非易事。在硬件层面,国内芯片代工企业在高端工艺和产能方面相对缺乏,难以彻底满足国产GPU规划厂商对高端AI芯片的出产需求;在软件层面,英伟达等世界巨子在软件生态(CUDA等)和IP授权方面具有强壮优势。国产GPU厂商在构建和完善软件生态以及获取要害IP授权范畴仍显单薄。
事实上,CUDA被业界遍及以为是英伟达最大护城河。英伟达CEO黄仁勋在本年也曾着重CUDA软件系统生态关于AI年代的重要性。“现在,CUDA已完成良性的展开循环,全球具有500万开发者,掩盖医疗保健、金融服务、核算机职业、汽车职业等范畴。”黄仁勋说。
我国工程院院士,高功能核算研究所所长郑纬民在本年7月7日的信息化百人会上指出:“这些年国产芯片无论是软件硬件都有很大的展开,可是用户不太喜爱用,原因是国产卡的生态系统不太好。”
郑纬民以为,这需求做好系统规划和相关软件优化,详细包含十个方面:编程结构、并行加快、通讯库、算子库、AI编译器、编程语音、调度器、内存分配系统、容错系统、存储系统等。在他看来,在国产算力支撑大模型练习时,国产AI芯片只能到达国外芯片60%的功能,但如果把前述十个方面的软件生态做好了,客户也会满足。
国泰君安在本年3月发布的《注重AI芯片配套的软件生态》陈述中总结:谁能做出我国版“CUDA”,就能占据AI算力高地。国内各大厂商已在GPU生态上活跃布局,包含驱动程序、开发工具、运用程序接口(API)等,以保证其产品可以更好地服务于人工智能、大数据处理、云核算和游戏等多样化的运用场景。例如,华为推出了CANN以及对应的生态系统,力求打破技能瓶颈。此外,像景嘉微、摩尔线程等公司也在自主研制GPU产品,并尽力打造与之兼容的软件环境,以削减对外部供货商的依靠,提高国产GPU的商场竞争力等。
证券时报记者 王一鸣前几年广受本钱追捧的GPU(图形处理器)这一硬核赛道正在步入洗牌期,一些本来备受瞩目的通用GPU规划企业先后堕入运营窘境。与此一起,有头部企业持续求新求变,已步入AI(人工智能)中...
文 | 华商韬略 熊剑辉
今年以来,从DeepSeek、宇树机器人,到“我国版阿斯麦”新凯来……一大批我国科技立异冷艳世人。
很多人并不知道,这背面都闪耀着华为的身影。
特别是华为云,一边在芯片底层深耕,一边以CloudMatrix瞄准超节点冲击,将练习、推理、具身智能全面推上云端,终成英伟达之外的“算力第二极”。
今日,即使英伟达AI算力仍然占优,却悄然损失独占的“铁王座”。
当我国再次面临科技链的硬关闭,华为的超节点打破,正引领我国AI迈向更自主、更普惠、更推翻的新年代。
【超节点包围】
2025年3月18日,美国加州圣何塞。
在声称全球“科技春晚”的英伟达GTC大会上,黄仁勋重磅发布了全新的Blackwell Ultra GPU,以及根据该芯片的NVL72服务器,震动国际。
由8个NVL72机架组成的完整版Blackwell Ultra DGX超节点,算力高达11.5 ExaFLOPS FP4。
算力爆表背面,英伟达的“超节点技能”,才是不传之秘。
什么是“超节点”?
简略来说,超节点是一种打破性的智算硬件架构。
在传统的AI服务器里,一张核算卡中仅能包容8块GPU芯片。这导致GPU之间传输速度快,但核算卡之间传输速度慢。
原本,这不是什么大问题。可现在,随同AI兴起,职业巨子动不动要衔接起不计其数、甚至10万计的GPU,使其逐渐成了一个大费事。
一个典型的事例是,当年Meta为练习4050亿个参数的Llama 3大模型,运用了包括16384块NVIDIA H100 80GB GPU的集群。
常言道:三个和尚没水喝。更何况,这是16384个“和尚”挑“三峡”,导致均匀3小时就发生一次意外报错,浪费了巨量的时刻、算力、人力本钱。
而要处理这个大问题,一要将AI服务器进一步集成,二要前进算卡间的网速。
NVL72超节点技能,因而应运而生。
简略了解,NVL72便是一个装了72张GPU的超级AI服务器,算卡之间经过NVLink网络技能衔接,令AI的算力和通讯速度几许倍数提高。
NVL72基础上,还能不断叠加,变成NVL144、NVL288、NVL576……
超节点技能加持下,成百上千颗GPU不断叠加,却仍然能像一颗超级GPU相同,协同高速运转。
可这样的超节点技能,一度为英伟达独有,且是关闭生态,不容任何人插手。
对此,连谷歌、亚马逊都要另辟蹊径;遭受高端AI芯片禁运的我国,也只能无可奈何。
但不管遭受怎样的艰难险阻,我国人信任,必定能突出重围。
2024年9月,华为全联接大会,华为云发布了AI原生云基础设施架构CloudMatrix,经过核算、存储和网络技能的协同立异,打造“超节点+集群”体系算力处理方案。
自主算力底座,重构AI柱石。文 | 华商韬略 熊剑辉 今年以来,从DeepSeek、宇树机器人,到“我国版阿斯麦”新凯来……一大批我国科技立异冷艳世人。 很多人并不知道,这背面都闪耀着华为的身...