摩爾線程升級誇娥智算集羣解決方案具備萬P級浮點運算能力-科技-極速新聞-每日看看

摩爾線程升級誇娥智算集羣解決方案具備萬P級浮點運算能力

2024-07-03 17:13 由環球網發佈於科技 240

【環球網科技報道記者李文瑤】7月3日，摩爾線程宣佈其AI旗艦產品誇娥（KUAE）智算集羣解決方案實現重大升級，從當前的千卡級別大幅擴展至萬卡規模。

據瞭解，誇娥（KUAE）是摩爾線程智算中心全棧解決方案，是以全功能GPU爲底座，軟硬一體化、完整的系統級算力解決方案，包括以誇娥計算集羣爲核心的基礎設施、誇娥集羣管理平臺（KUAE Platform）以及誇娥大模型服務平臺（KUAE ModelStudio），旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。

此次升級後的誇娥萬卡智算解決方案具備多個核心特性，包括全新一代誇娥智算集羣實現單集羣規模超萬卡，浮點運算能力達到10Exa-Flops，大幅提升單集羣計算性能，能夠爲萬億參數級別大模型訓練提供堅實算力基礎。

在集羣穩定性方面，摩爾線程誇娥萬卡集羣平均無故障運行時間超過15天，最長可實現大模型穩定訓練30天以上，周均訓練有效率在99%以上。

誇娥萬卡集羣在系統軟件、框架、算法等層面一系列優化，實現大模型的高效率訓練，MFU最高可達到60%。其中，在系統軟件層面，基於極致的計算和通訊效率優化等技術手段，大幅提升集羣的執行效率和性能表現。在框架和算法層面，誇娥萬卡集羣支持多種自適應混合並行策略與高效顯存優化等，可以根據應用負載選擇並自動配置最優的並行策略，大幅提升訓練效率和顯存利用。同時，針對超長序列大模型，誇娥萬卡集羣通過CP並行、RingAttention等優化技術，有效縮減計算時間和顯存佔用，大幅提升集羣訓練效率。

此外，誇娥萬卡集羣是一個通用加速計算平臺，計算能力爲通用場景設計，可加速LLM、MoE、多模態、Mamba等不同架構、不同模態的大模型。同時，基於高效易用的MUSA編程語言、完整兼容CUDA能力和自動化遷移工具Musify，加速新模型“Day0”級遷移，實現生態適配“Instant On”，助力客戶業務快速上線。

摩爾線程創始人兼CEO張建中認爲，多元趨勢下，AI模型訓練的主戰場，萬卡已是標配。隨着計算量不斷攀升，大模型訓練亟需超級工廠，即一個“大且通用”的加速計算平臺，以縮短訓練時間，實現模型能力的快速迭代。當前，國際科技巨頭都在通過積極部署千卡乃至超萬卡規模的計算集羣，以確保大模型產品的競爭力。隨着模型參數量從千億邁向萬億，模型能力更加泛化，大模型對底層算力的訴求進一步升級，萬卡甚至超萬卡集羣成爲這一輪大模型競賽的入場券。