大模型浪潮加速算力競賽,國産GPU升級“萬卡”集群

北京日報客戶端 2024-07-04 10:20:17

7月3日,總部位于北京的國産GPU企業摩爾線程宣布其AI旗艦産品誇娥(KUAE)智算集群解決方案實現重大升級,從當前的千卡級別大幅擴展至萬卡規模。

“AI模型訓練的主戰場,萬卡已成爲標配。”摩爾線程創始人兼CEO張建中說。隨著計算量不斷攀升,大模型訓練亟需超級工廠,也就是一個“大且通用”的加速計算平台,從而縮短訓練時間,實現模型能力的快速叠代。

所謂萬卡集群,是指由一萬張及以上的計算加速卡(如GPU)組成的高性能計算系統,用以訓練基礎大模型。這種集群充分整合高性能GPU計算、高性能RDMA網絡、高性能並行文件存儲、智算平台等關鍵技術,將底層基礎設施整合成爲一台“超級計算機”,可支持千億級甚至萬億級參數規模的大模型訓練,有助于大幅壓縮大模型訓練時間,以實現模型能力的快速叠代。

當前,國際科技巨頭都在通過積極部署千卡乃至超萬卡規模的計算集群,以確保大模型産品的競爭力。隨著模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集群成爲這一輪大模型競賽的入場券。

據了解,構建萬卡集群並非一萬張GPU卡的簡單堆疊,而是一項高度複雜的超級系統工程。它涉及超大規模的組網互聯、高效率的集群計算、長期穩定性和高可用性等諸多技術難題。“可以把萬卡集群想象爲一個萬人團隊,團隊需要有非常強的溝通機制,才能協同把一件事情做好。”摩爾線程相關負責人說,希望能夠建設一個規模超萬卡、場景夠通用、生態兼容好的加速計算平台,並優先解決大模型訓練的難題。

據悉,在集群計算性能方面,全新一代誇娥智算集群實現單集群規模超萬卡,浮點運算能力達到10Exa-Flops,大幅提升單集群計算性能,能夠爲萬億參數級別大模型訓練提供算力基礎。

穩定性是衡量超萬卡集群性能的關鍵,“早期千卡故障率可能0.1%就可以了,而到萬卡要提升到0.01%甚至是0.001%,這對硬件設計、生産制造都是很大的挑戰。”張建中說。穩定性方面,誇娥萬卡集群平均無故障運行時間超過15天,最長可實現大模型穩定訓練30天以上,周均訓練有效率在99%以上。

當日,中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司分別就三個萬卡集群項目與摩爾線程進行了戰略簽約,將共建國産GPU集群。

2 阅读:275