華為云CloudMatrix 384超節(jié)點具備MoE親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓、即開即用六大領先技術優(yōu)勢,以系統(tǒng)架構創(chuàng)新重新定義新一代AI基礎設施。
隨著大模型訓練和推理對算力需求的爆炸式增長,傳統(tǒng)計算架構已難以支撐AI技術的代際躍遷。
新一代昇騰AI算力CloudMatrix384,支持最大規(guī)模384卡高速總線互聯(lián),訓練推理性能大幅度提升??v向擴展:通過高速網(wǎng)絡交換機組成384卡超節(jié)點;橫向擴展:參數(shù)面交換機最大支持16萬卡集群規(guī)模。
對于萬億、十萬億參數(shù)的大模型訓練任務,在云數(shù)據(jù)中心,還能將432個超節(jié)點級聯(lián)成最高16萬卡的超大集群;同時,超節(jié)點還可以支持訓推算力一體部署,如“日推夜訓”,訓推算力可靈活分配,幫助客戶優(yōu)化資源使用。
全新超節(jié)點架構算力底座
最大支持16萬卡集群,用高速總線互聯(lián)替代傳統(tǒng)傳統(tǒng)以太,通信帶寬提高15倍,通信帶寬提升15倍,通信時延降低10倍。
AI數(shù)據(jù)加速更快
支持EMS服務,跨節(jié)點共享KV緩存,大幅降低首Token時延。支持SFS Turbo服務,實現(xiàn)AI數(shù)據(jù)加載速度提升10倍。
大規(guī)模集群性能更高
超節(jié)點+大規(guī)模專家并行的技術,支持單卡性能提升近4倍,支持一卡一專家分布式推理部署,相較于非超節(jié)點推理性能提升4X。
資源利用率提升
支持朝退夜訓,通過訓推共池,訓練資源池和推理資源池,資源靈活調度,實現(xiàn)資源利用提升30%。
當前,昇騰AI云服務已經(jīng)成為AI基礎設施的優(yōu)選,為超過1300家客戶提供澎湃的AI算力,加速千行萬業(yè)智能化升級。
注:本文素材來自華為官網(wǎng),版權歸作者所有