AI+,需要什麼樣的算力網絡?

AI+時代,算力將發揮越來越重要的作用,成爲產業升級、生產力躍遷的關鍵驅動力。當前我國算力網絡正處於融合統一的攻堅期、泛在智能的躍升期、原創技術的突破期、產業生態的塑造期。爲更好服務AI+時代,算網發展需要實現“三個質變”——以“大規模智算集羣”爲核心,實現基礎設施的質變;以“算網大腦智能升級”爲核心,實現編排調度的質變;以“融合統一算龍頭”爲核心,實現服務模式的質變。

如何實現這些目標,讓算力網絡全面支撐AI+?在2024中國移動算力網絡大會上,中國移動給出了自己的最新實踐以及規劃路徑。

構建大集羣,打造AI模型訓練的超級工廠。中國移動將持續優化算力網絡資源總體佈局,面向AI+升級,今年將商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡集羣,總規模近6萬張GPU卡,充分滿足大模型集中訓練需求。隨着大模型訓練逐漸轉向大規模行業應用,泛在的推理需求持續湧現,中國移動將按需在1500個邊緣節點部署推理算力,形成“中心大集羣、邊緣廣分佈、中訓邊推、訓推一體”的智算網絡。同時,還將持續完善技術體系,推進全棧技術創新。一是突破堵點,加快邁向超萬卡集羣。面向機間互聯,原創提出全調度以太技術體系(GSE),構建無阻塞、高帶寬、超低時延的新型智算中心網絡,對標國際主流的IB和UEC方案,形成中國自主的技術體系,今年將開展GSE中試,加速GSE關鍵技術和產業成熟;面向卡間互聯,打造標準開放總線級互聯架構,提升GPU卡間高帶寬、低時延通信能力,實現互聯拓撲和協議的全棧級優化,爲標準開放的新型智算互聯貢獻中國方案。二是多元異構,構建融合開放的大算力生態。持續推進一雲多芯的多樣算力,打破AI芯片生態豎井,今年將升級“芯合”算力原生平臺,支持智算應用在更多GPU芯片的快速遷移,同時還支持面向大模型的分佈式異構混訓,打破當前大模型僅能在單廠家單型號集羣訓練的侷限。中國移動將進一步實現雲底座關鍵技術突破,升級“大雲天元”操作系統,商用推廣雲原生數據庫、新一代SDN網絡。三是訓推一體,打造開箱即用的AI服務。自研智算平臺,打造模型訓練“自動化生產線”,實現AI模型全生命週期服務,支持全棧、全自主可控、全地域的資源統一管理調度,提供一站式開發工具箱,支持萬卡並行訓練、千卡15天以上穩定訓練、分鐘級斷點續訓,確保大模型訓得好、快、穩。

暢通大動脈,構建AI數據流轉的信息高速路。面向近期,中國移動充分發揮網絡優勢,加快打通國家樞紐集羣間的400G高速互聯鏈路,開放網絡彈性能力,打造大帶寬、廣覆蓋、低時延、智能化的新型運力網,進一步降低業務西遷成本,積極爲國家樞紐節點內、節點間公共傳輸通道貢獻力量。面向中長期,將主導形成“高通量、低時延、一體化”的多層次融合網絡方案。一是高通量,針對長距離網絡傳輸性能瓶頸,研發新型高吞吐傳輸協議,今年將與國家天文臺、華大基因等開展聯合驗證,實現長距離、高吞吐、高彈性、廣覆蓋和高安全的數據快遞服務;二是低時延,歷時五年,聯合產業攻關反諧振空芯光纖技術,設計自主結構,相比傳統實芯光纖傳輸時延降低33%,今年將啓動20公里中試驗證,明年預計突破100公里,有望改變光通信產業格局;三是一體化,依託中國移動在IETF主導的算力路由技術體系,在路由中引入算力向量,實現聯合優化調度,樣機驗證顯示,業務平均時延降低15%,系統容量提升30%,今年將繼續推動算力路由原創技術標準化,與視頻監控、雲渲染等場景結合開展中試驗證。

建強大中樞,研發AI任務分發的最強大腦。算網大腦是基於網絡的分佈式算力任務分發系統,中國移動將在去年試商用的基礎上,實現全網調度能力和智能化水平的全面躍升。一是功能躍升,今年將納管自有智算中心、邊緣節點,廣泛吸納三方算力,實現通智邊一體調度和全局數據高效流通,開放算網能力超過3000個,多要素能力實現ABCDNETS全覆蓋;二是性能躍升,日調度次數從千萬次提升到億次,引入能效等更多維度,攻關解決高維組合優化問題,基於新型的並行算法,加快實現分佈式跨集羣任務的調度;三是服務能力躍升,融合九天算網大模型,創新AI交互式訂購,實現個性化、智能化交互新模式,不斷賦能算網新服務,推動屬地化、單一式傳統產品向全局化、複合式產品升級。

塑造大產業,繁榮AI應用創新的“熱帶雨林”。一是壯大創新根基,當前已經初步構建了覆蓋國際、國內的算力網絡標準體系,特別是在IETF成立的算力路由工作組,正在主導算網一體總體架構設計。未來中國移動將進一步健全標準體系,加快推動智算中心網絡等標準制定,爲全球標準貢獻更多中國方案。二是繁茂創新枝葉,加快未來產業、創新聯合體打造,深化算力併網、任務式服務模式創新,激發AI+應用創新活力,完善商業模式。同時,中國移動正在加快構建集約高效的數聯網,打造數據流通基礎設施,讓高質量數據“活起來、動起來、用起來”,支撐數據要素全國統一大市場建設。到今年底,中國移動算力併網規模將突破5EFlops,算網服務樣板間超過80個,數聯網交易節點落地超10個。三是培育創新沃土,將以跨地域、跨主體的全國性算力網絡試驗科學裝置爲基礎,聯合更多產學研合作伙伴,支撐建設全國一體化算力網原型試驗場,孵化更多算力網絡新技術、新應用。同時,中國移動作爲國資央企,將發揮在智算資源、安全、運營等方面的優勢,助力全社會方便、快捷地使用智算服務,打造一片AI創新的“熱帶雨林”。



Scroll to Top