有人称其长得像AI,美得不真实。校友称,她人很好,遇到有同学想合照都会活跃反应,运动会那天许多人去给她摄影,她不只没有不耐烦还悄悄允许鞠躬回应。
文 | 华商韬略 熊剑辉
今年以来,从DeepSeek、宇树机器人,到“我国版阿斯麦”新凯来……一大批我国科技立异冷艳世人。
很多人并不知道,这背面都闪耀着华为的身影。
特别是华为云,一边在芯片底层深耕,一边以CloudMatrix瞄准超节点冲击,将练习、推理、具身智能全面推上云端,终成英伟达之外的“算力第二极”。
今日,即使英伟达AI算力仍然占优,却悄然损失独占的“铁王座”。
当我国再次面临科技链的硬关闭,华为的超节点打破,正引领我国AI迈向更自主、更普惠、更推翻的新年代。
【超节点包围】
2025年3月18日,美国加州圣何塞。
在声称全球“科技春晚”的英伟达GTC大会上,黄仁勋重磅发布了全新的Blackwell Ultra GPU,以及根据该芯片的NVL72服务器,震动国际。
由8个NVL72机架组成的完整版Blackwell Ultra DGX超节点,算力高达11.5 ExaFLOPS FP4。
算力爆表背面,英伟达的“超节点技能”,才是不传之秘。
什么是“超节点”?
简略来说,超节点是一种打破性的智算硬件架构。
在传统的AI服务器里,一张核算卡中仅能包容8块GPU芯片。这导致GPU之间传输速度快,但核算卡之间传输速度慢。
原本,这不是什么大问题。可现在,随同AI兴起,职业巨子动不动要衔接起不计其数、甚至10万计的GPU,使其逐渐成了一个大费事。
一个典型的事例是,当年Meta为练习4050亿个参数的Llama 3大模型,运用了包括16384块NVIDIA H100 80GB GPU的集群。
常言道:三个和尚没水喝。更何况,这是16384个“和尚”挑“三峡”,导致均匀3小时就发生一次意外报错,浪费了巨量的时刻、算力、人力本钱。
而要处理这个大问题,一要将AI服务器进一步集成,二要前进算卡间的网速。
NVL72超节点技能,因而应运而生。
简略了解,NVL72便是一个装了72张GPU的超级AI服务器,算卡之间经过NVLink网络技能衔接,令AI的算力和通讯速度几许倍数提高。
NVL72基础上,还能不断叠加,变成NVL144、NVL288、NVL576……
超节点技能加持下,成百上千颗GPU不断叠加,却仍然能像一颗超级GPU相同,协同高速运转。
可这样的超节点技能,一度为英伟达独有,且是关闭生态,不容任何人插手。
对此,连谷歌、亚马逊都要另辟蹊径;遭受高端AI芯片禁运的我国,也只能无可奈何。
但不管遭受怎样的艰难险阻,我国人信任,必定能突出重围。
2024年9月,华为全联接大会,华为云发布了AI原生云基础设施架构CloudMatrix,经过核算、存储和网络技能的协同立异,打造“超节点+集群”体系算力处理方案。
修改丨李勤
“下半年开端,抱负简直把渠道商手里的卡都买了。”一位知情人士说。
AI大模型创业催生的抢购算力潮,本年猛然搬迁到了轿车职业。以抱负、华为和小鹏轿车为首,向端到端智驾建议猛冲的公司,尤为急进。
和AI大模型技能趋同,端到端的智能驾驭技能,相同稀有十亿参数,也在向百亿级进发。算力便是这座数据熔炉的燃料。这也决议,端到端技能和算力资源拼抢,成了智能驾驭新的决胜规矩。
“李想(抱负轿车CEO)常常问我,算力资源够不行,不行再去买。”承受36氪专访时,抱负智能驾驭副总裁朗咸鹏曾表明。据36氪了解,现在抱负轿车现已囤够了万张算力卡,“一起还在物色数据中心的地址。”
7月,抱负的云端算力为2.4 EFLOPS ,到8月底,抱负算力现已陡增至5.39 EFLOPS。简直一个月时刻,抱负的云端算力添加了近3 EFLOPS。
相同,小鹏轿车宣告,到2025年,云端算力将从现在的2.51 EFLOPS添加到10 EFLOPS。
华为智驾也在两个月内迅速将云端练习算力规划从5EFLOPS扩张到7.5 EFLOPS。
这是什么概念?有智驾职业人士告知36氪,现在车企们运用的练习显卡主要是英伟达H100和A800。美国禁令后,市场上能流转的大多是A800。
据36氪轿车了解,一台A800服务器(含8张显卡)报价约为95万元。依照FP16精度核算,单张A800的算力为320TFLOPS,1 EFLOPS(等于1000000TFLOPS)大约可核算为3125张A800,即390个8卡模组。
按每8卡模组依照95万元价格核算,1 EFLOPS算力大约需求约3.7亿元。
也便是说,抱负轿车在曩昔1个多月,仅囤置算力芯片就消耗超10亿元,而小鹏想要完成下一年总算力方针,则需求消耗约37亿元。
尽管耗资巨甚,但不容车企松懈。智能驾驭技能现已在AI大浪潮下,产生新的范式革新:从传统计划的规矩驱动,变成了“端到端”计划的AI驱动、数据驱动。
想要量产端到端的智能驾驭产品,车企们需求先成为吞噬海量数据、巨大云端算力的猛兽。
特斯拉先成为“算力狂魔”。上一年9月,特斯拉AI练习芯片储藏不过万张左右,而在本年三季度财报会数字显现,现在特斯拉AI算力约等效为6.75万张英伟达H100芯片。一年时刻算力储藏翻超6倍。
前几年广受本钱追捧的GPU(图形处理器)这一硬核赛道正在步入洗牌期,一些本来备受瞩目的通用GPU规划企业先后堕入运营窘境。与此一起,有头部企业持续求新求变,已步入AI(人工智能)中心战场。
关于职业现状,北京社科院研究员王鹏向证券时报记者剖析,当时国产GPU工业处于快速展开与洗牌并存的阶段。一方面,跟着AI大模型的需求激增,国产GPU商场敏捷兴起,出现出如摩尔线程、壁仞科技等一批具有立异才能的企业。这些企业在技能研制、产品立异等方面取得了显着展开,为国产GPU职业注入了新的生机。另一方面,商场竞争也日益剧烈,部分草创企业因为资金链断裂、技能瓶颈等问题堕入窘境,乃至面对裁人、诉讼等危险。
“久远来看,国产GPU职业仍具有宽广的展开前景。这源于人工智能、大数据、云核算等技能的快速展开,对高功能GPU的需求持续添加;一起,国家方针对半导体工业的支撑力度不断加大,为国产GPU职业供给了杰出的展开环境。此外,跟着国产芯片公司在生态构建、技能立异等方面的不断尽力,国产GPU有望逐步缩小与世界抢先水平的距离。”王鹏说。
几家欢欣几家愁
近来,国产GPU独角兽壁仞科技一则动态引起业界注重。该公司在上海证监局处理IPO教导存案挂号,教导券商为国泰君安。这是继本年8月26日燧原科技教导存案陈述发布后,又一家发动IPO的上海AI芯片企业。
壁仞科技创立于2019年,致力于研制原创性的通用核算系统,树立高效的软硬件途径,一起在智能核算范畴供给一体化的解决计划。到现在,公司已完结多轮融资,揭露融资总额超越50亿元,投资方包含启明创投、IDG本钱、中芯聚源、格力创投等。
现在,壁仞科技首款国产高端通用GPU(GPGPU)壁砺系列已量产。在9月举办的2024全球AI芯片峰会上,壁仞科技还初次发布了其自研的异构GPU协同练习计划,该计划打破了大模型异构算力孤岛难题,完成了在本乡异构多GPU芯片算力练习技能范畴的初次打破。
另一家国内GPU独角兽企业也有新动作。本年7月,摩尔线程宣告对其夸娥(KUAE)智算集群解决计划进行严重晋级,从当时千卡等级大幅扩展至万卡规划。摩尔线程创始人兼CEO张建中表明,在多元趋势下,万卡已是AI模型练习主战场的标配。
事实上,在国内,万卡集群建造正高歌猛进。上一年7月,华为昇腾AI集群规划从开始的4000卡集群扩展至16000卡,是国内首个万卡AI集群。
不过,当时国产GPU工业的分解亦非常显着,一些本来备受瞩目的企业连续堕入窘境。本年8月底,曾取得2024年度重庆市“独角兽企业”称谓的象帝先被曝约400位职工被裁。公司在回应中坦陈:“展开面对必定的商场调整压力……正在进行安排结构和人员装备的优化等……并寻觅外部融资时机。”另一方面,象帝先股东还在申述其创始人唐志敏,因其未能筹措到许诺的5亿元B轮融资。
在象帝先堕入窘境之前,同处在GPU赛道的砺算科技也曾预警。至本年8月19日,东芯股份公告拟以不超越2亿元收买砺算科技37.88%股份,砺算科技的资金紧张局势方得以缓解。
GPU占AI芯片
多半比例
在中关村物联网工业联盟副秘书长袁帅看来,当时国产GPU职业处于一个杂乱而要害的转型期,短期职业呈现降温文分解,首要是因为商场竞争加重、技能门槛进步、本钱落潮等要素导致企业资金压力增大。在此布景下,部分实力较弱的草创企业在面对应战时往往愈加软弱,而头部企业则凭仗其技能实力、商场布局和资金优势逐步锋芒毕露。
按界说和运用看,GPU起初是一种显现芯片,用于加快核算机上的图画处理。跟着技能进步和运用规模的扩展,GPU衍生出了GPGPU,后者是经过运用GPU并行处理才能特别强、核算能效比高的特色,处理更为杂乱的核算使命(如AI模型练习与推理等)。基于此,现在的GPU已被广泛运用于人工智能、虚拟现实、游戏、科学核算等许多范畴。
IDC数据显现,估计到2025年,GPU仍将占有全球AI芯片多半商场比例。Gartner此前猜测,2023年全球人工智能芯片(包含GPU、TPU等)的商场规划到达530亿美元,并估计在2024年添加至671亿美元。到2027年,全球人工智能芯片商场规划估计到达1194亿美元。
从职业格式来看,作为GPU的发明者,英伟达占有肯定抢先位置。Jon Peddie Research(JPR)数据显现,2024年榜首季度英伟达的全球AIB显卡(也称独立GPU)商场比例飙升至88%,而AMD的商场比例下降至12%。JPR估计,2024年第二季度,AI练习器GPU的出货量将持续添加,而游戏AIB商场或许相等或走低。在AI芯片主战场,据TechInsights数据,英伟达2023年的数据中心GPU出货量约为376万片,比2022年多出近100万片,商场占比98%,收入达362亿美元。压倒性打败了AMD和英特尔等竞争对手。
微软公司和Meta等数据中心运营商运用英伟达的芯片来开发和运转AI模型,巨大的需求使其销售额和股价飙升。英伟达市值在本年6月曾登顶全球榜首,到达3.33万亿美元。最新财报显现,在英伟达Hopper(GPU构架途径)、GPU核算和网络途径微弱需求的推进下,公司数据中心本年第二季度收入到达262.72亿美元。
英伟到达达现在效果凭的是什么?袁帅告知证券时报记者,这首要源于英伟达在GPU规划、制作工艺以及软件优化等方面具有深沉的技能堆集,其产品在功能、功耗比和安稳性等方面均处于职业抢先位置。一起,该公司树立了完善的生态系统,包含CUDA途径、软件开发工具包(SDK)以及丰厚的第三方运用支撑等,为开发者供给了快捷的开发环境和广泛的运用场景。
“英伟达的芯片产品先进且功能强壮,配套软件生态完善浸透率高,而且产品迭代进化速度快速,所以商场位置尚难以撼动。”深度科技研究院院长张孝荣以为。
时机和应战并存
国内商场方面,自2019年以来,一批国产GPU草创公司先后建立,其间出现了壁仞科技、摩尔线程、燧原科技等AI芯片规划独角兽。一起,还有一批老牌芯片规划公司也入局GPU范畴。
这些公司的时机在于美国出口控制布景下的国产代替。2022年10月,美国政府制止英伟达向我国出口高功能H100、A100芯片。英伟达随后专门面向我国商场推出了不违背美国出口控制要求的A800和H800芯片,至上一年10月,这两项芯片也被约束。2024年2月,英伟达向我国商场特供的H20芯片承受预定,但该芯片与H100装备比较,GPU中心数量削减41%,功能下降28%。对此,英伟达2023年11月曾泄漏,数据中心事务两成以上受出口控制影响。
与此一起,国内GPU厂商正迎头赶上。IDC在2023年中发布的一项我国AI加快卡(揭露商场)出货量核算显现,2022年上半年到2023年上半年,我国AI加快卡出货约109万张,英伟达商场比例为85%,华为市占率为10%,百度市占率为2%,寒武纪和燧原科技均为1%。
从国内产品效果来看,不只华为昇腾系列体现杰出。2024年5月份,摩尔线程与智谱AI展开了新一轮GPU大模型适配、功能测验。结果表明,在推理方面,摩尔线程自研全功能GPU显着优于基准比照产品RTX 3090和RTX 4090;在练习方面,摩尔线程夸娥千卡智算集群的练习精度与A100集群比较,差错在1%以内,而集群功能扩展系数超越90%,模型算力运用率(MFU)与A100集群适当。
壁仞科技则于2022年8月推出选用7nm制程的GPGPU芯片BR100,该芯片峰值算力到达世界厂商彼时在售旗舰产品3倍以上,创下国内互连带宽纪录。
不过,应战也随之而来,一些职业抢先企业先后被美国政府“盯上”。2022年12月,寒武纪等36家被美国政府列入“实体清单”。2023年10月,壁仞科技、摩尔线程等亦被添加到实体清单中。
这对相关企业影响几许?寒武纪在2024年半年报中表明,公司及部分子公司已被列入“实体清单”,将对公司供应链的安稳形成必定危险。受“实体清单”等供应链不利要素影响,公司上半年营收6476.53万元,较上年同期下降43.42%。
生态建造待完善
王鹏指出,当时世界政治经济环境的改变对GPU职业产生了必定影响。特别是美国对我国AI工业的镇压方针约束了国内相关企业的进口途径和供应链安稳性。
袁帅向证券时报记者表明,在面对外部封闭前提下,国产GPU厂商要站稳脚跟并在高端AI芯片范畴争得一席之地并非易事。在硬件层面,国内芯片代工企业在高端工艺和产能方面相对缺乏,难以彻底满足国产GPU规划厂商对高端AI芯片的出产需求;在软件层面,英伟达等世界巨子在软件生态(CUDA等)和IP授权方面具有强壮优势。国产GPU厂商在构建和完善软件生态以及获取要害IP授权范畴仍显单薄。
事实上,CUDA被业界遍及以为是英伟达最大护城河。英伟达CEO黄仁勋在本年也曾着重CUDA软件系统生态关于AI年代的重要性。“现在,CUDA已完成良性的展开循环,全球具有500万开发者,掩盖医疗保健、金融服务、核算机职业、汽车职业等范畴。”黄仁勋说。
我国工程院院士,高功能核算研究所所长郑纬民在本年7月7日的信息化百人会上指出:“这些年国产芯片无论是软件硬件都有很大的展开,可是用户不太喜爱用,原因是国产卡的生态系统不太好。”
郑纬民以为,这需求做好系统规划和相关软件优化,详细包含十个方面:编程结构、并行加快、通讯库、算子库、AI编译器、编程语音、调度器、内存分配系统、容错系统、存储系统等。在他看来,在国产算力支撑大模型练习时,国产AI芯片只能到达国外芯片60%的功能,但如果把前述十个方面的软件生态做好了,客户也会满足。
国泰君安在本年3月发布的《注重AI芯片配套的软件生态》陈述中总结:谁能做出我国版“CUDA”,就能占据AI算力高地。国内各大厂商已在GPU生态上活跃布局,包含驱动程序、开发工具、运用程序接口(API)等,以保证其产品可以更好地服务于人工智能、大数据处理、云核算和游戏等多样化的运用场景。例如,华为推出了CANN以及对应的生态系统,力求打破技能瓶颈。此外,像景嘉微、摩尔线程等公司也在自主研制GPU产品,并尽力打造与之兼容的软件环境,以削减对外部供货商的依靠,提高国产GPU的商场竞争力等。
AI浪潮席卷千行百业的大布景下,家电巨子正竞相比赛AI家电蓝海赛道。
3月20日,2025年我国家电及消费电子博览会(AWE2025)在上海新世界博览中心拉开帷幕。据悉,本届展会以“AI科技、AI日子”为主题。AWE官方表明,本届展会招引千余家全球抢先的家电及消费电子企业参展,“出现AI赋能的才智日子新产品、新方案、新场景”。
《我国经营报》记者注意到,在本届AWE2025,许多家电巨子密布推出一系列AI家电新品,如海尔智家对外展出一系列搭载“AI之眼”的新产品。海尔智家方面表明,AI之眼系列黑科技进一步为用户分管了家务。“意味着海尔才智家庭开端从‘帮人家务’迈向‘无人家务’。”
“AI未来对家电工业链各环节改造不行忽视。”我国银河证券以为,数字化和IoT技能在曩昔十年对工业链晋级继续输出积极影响。“从开始的营销、出售、分销到出产、企业运营如财务管理等各个环节,终究完成了供应链数字化、黑灯工厂、途径扁平化、出售电商化等重大变革。”
AI赋能“无人家务”潮起
人工智能技能加快迭代,也在推动传统家电工业转型晋级,在AWE2025上,“AI+家电”成为抢手词汇。
揭露信息显现,AWE2025会聚全球家电与消费电子范畴顶流展商阵型,包含博世家电、Fisher&Paykel等世界品牌,也包含海尔智家、TCL等国内家电巨子与细分范畴龙头企业,以及华为、宇树等科技立异与AI生态领军企业。