首页 > 生活学习 > 生活学习 > 华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复

华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复

发布时间:2025-06-11 12:54:28来源: 15510183920
大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。
 
  但是,在华为,昇腾万卡算力集群,已经可以做到近乎“永不罢工”了:
 
 
  或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗?
 
  答案是肯定的,需要,且有必要。
 
  因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成百上千的CT照片。
 
  这些看似简单的智能应用,其实都离不开如 “超级大脑” 般的AI算力集群,需要它们全天候不停歇地运转着。
 
  而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。
 
  更严格来说,AI推理的可用度甚至还需要达到99.95%的程度。
 
  那么华为又是如何做到这点的?
 
  关于这一切背后的秘密,华为在今天首次把技术给公开了出来。
 
  AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。
 
  要解决问题,首先得确定故障出在哪个大的领域,接着再在这个领域内部一步步排查,确定具体的故障位置。在整个故障诊断过程中,面临的挑战非常大。
 
  以往技术人员进行故障定位时,短则需数小时,长则可能耗时数天。这一过程不仅对技术人员的专业技能要求颇高,且往往难以快速锁定故障设备及根本原因。
 
  为此,华为团队针对AI大集群面临的复杂挑战,构建了三大基础能力。
 
  首先是全栈可观测能力。
 
  它像是给集群装了一套“火眼金睛”监控系统(故障感知),主要包含这几部分:
 

生活学习更多>>

传高通骁龙SM8950因2nm工艺成本飙升 手机又要涨价? “特能发”“电碳融合”!TCL光伏科技亮相SNEC 2025国际光伏展 新线索称《光环》系列 Xbox 游戏将扩展到索尼 PS5 平台 索尼PlayStation公布6月港服PS Plus二档三档游戏阵容 尼康Z30微单相机,原价6199元现4580元 尼康发布全画幅微单相机尼康Z8的固件更新3.00版 富士 X-E5 APSC 相机真机图片再曝光 红米 Turbo 4 5G手机12GB+512GB祥云白仅1004元 魅族魅蓝20 AI手机限时特惠539元 负责人开启“微博办公”模式,小米可穿戴业务终于要翻身了? 小米SU7 Ultra量产版纽北圈速出炉 再次干翻保时捷! 工信部加大抽查力度,对小米、问界等汽车品牌有何影响? 广汽丰田官宣将与小米展开合作 更多细节6月12日揭晓 小米Civi 3 5G手机12GB+256GB椰子灰仅913元 iQOO Neo10 5G限时促销,疾影黑12GB+256GB仅需1767元 华为 Pura 80 系列手机首次搭载鸿蒙操作系统 5.1 OPPO Find X9系列配置曝光:搭载联发科/高通双平台 镰刀Scythe台北电脑展推出多款风冷散热新品 消息称三星电子在 DRAM 内存领域率先导入干式光刻胶技术 联想控股相关公司新增一项100.00万元的招标项目 联想刘军:天禧个人超级智能体,让用户像相信自己一样相信AI 对话苹果「液态玻璃」设计缔造者:不说 20 周年透明 iPhone,但暗示已足够明显 vivo X Fold5折叠屏手机屏幕与防护性能亮点揭晓 vivo X Fold5全面兼容苹果生态,本月发布 彻底打通苹果生态!vivo X Fold5将支持iCloud云端直连+Apple Watch连接 荣耀Magic V5配色曝光:黑白金敦煌四色 辨识度拉满 京东618“3C数码超宠粉”活动开启 0元抽荣耀400肖战周边与明星签名照 华为 Pura 80 系列手机搭载第八代 ISP,实时数据处理提升 200% 海思:接下来华为的绝大多数手机、手表等产品将标配星闪车钥匙 2025Q1 欧洲折叠手机市场销量:三星同比降24%,摩托罗拉增长58%至第二