國產“十萬卡”集群開始落地
在人工智慧飛速發展的當下,算力已然成為核心競爭力的關鍵要素。 由顯卡規模撐起的算力水準,是決定大模型性能的最重要指標之一。 一般認為,1 萬枚英偉達 A100 晶元,是做好 AI 大模型的算力門檻。
2024 年,我國智算中心建設駛入快車道,最明顯的感受就是萬卡集群專案加速落地。 萬卡集群,是指由一萬張及以上 GPU、TPU 等專用 AI 加速晶片組成的高性能計算系統,它深度融合高性能 GPU 計算、高速網路通信、大容量並行檔存儲以及智慧計算平臺等前沿技術,將底層基礎設施整合成一台超級強大的 「算力巨獸」。。 借助這樣的集群,千億乃至萬億參數規模的大模型訓練得以高效完成,大幅縮短模型反覆運算週期,助力 AI 技術快速進化。
然而,隨著 AGI 的概念持續火熱,行業對算力的渴求愈發強烈,“萬卡集群” 逐漸難以滿足爆髮式增長的需求,算力領域的 “軍備競賽” 愈演愈烈。 如今,十萬卡集群已成為全球頂尖大模型企業的 「兵家必爭之地」,xAI、Meta、OpenAI 等國際巨頭紛紛布局,國內企業也不甘示弱,積極投身這場算力角逐。
十萬卡集群挑戰巨大
在全球範圍內,OpenAI、微軟、xAI 和 Meta 等頭部科技公司競相構建超 10 萬卡規模的 GPU 集群。 這一巨集大計劃背後,是驚人的資金投入,僅伺服器成本就超過 40 億美元。 此外,數據中心的空間限制、電力供應不足等問題,也如同攔路虎,阻礙著項目推進。
而在國內,建一個萬卡集群,單是 GPU 的採購成本就高達幾十億,因此國內能夠部署萬卡規模集群的,原本就只有阿裡、百度等寥寥幾家大廠。 而想要部署十萬卡集群,其「燒錢」程度可想而知。
除了資金成本,十萬卡集群建設還面臨著諸多技術難題。
首先是電力與散熱的極限考驗。 十萬卡 H100 集群僅關鍵 IT 設備就需約 150MW 電力,遠超單個數據中心建築的承載能力,需通過園區多建築分散式部署實現電力分配,同時還要應對電壓波動與穩定性難題。 而散熱系統更需匹配巨量熱負荷 — 高密度 GPU 運行時產生的熱量若無法及時疏導,將直接導致設備宕機,高效散熱方案的能耗與維護成本也需同步優化。 GPU 是一種很敏感的硬體,連一天之內氣溫的波動,都會影響到 GPU 的故障率,而且規模越大,出故障的概率就越高。 Meta 訓練 llama3 的時候,用了 1.6 萬張 GPU 卡的集群,平均每 3 小時就會出一次故障。
此外,區別於傳統 CPU 集群的串行特點,大模型訓練過程需要全部顯卡同時參與並行計算, 對網路傳輸能力也提出了更大的挑戰。 若採用胖樹拓撲實現全 GPU 高頻寬互聯,四層交換的硬體成本將呈指數級增長,因此通常採用 「計算島」 模式:島內以高頻寬保障通信效率,島間則降低頻寬以控制成本。 但這要求在張量並行、數據並行等不同訓練模式下,精準平衡通信任務分配,避免因拓撲設計缺陷導致頻寬瓶頸。 尤其當模型規模突破萬億參數時,前端網路的通信量會隨稀疏技術應用急劇增加,延遲與頻寬的優化需精細化權衡。
最後,相比於美國同行,中國大模型企業還面臨一重特殊的困難。 由於總所周知的原因,國內企業無法像馬斯克那樣全部採用英偉達方案 ,而是需要使用包括國產 GPU 在內的異構晶元。 這也意味著,即使同樣十萬張顯卡,國內企業在算力規模上也很難同美國企業匹敵。
算力是大模型發展的核心,但算力的增長已從線性變為平面。 構建十萬卡集群不僅是算力的增長,還涉及技術和運營挑戰,管理10萬卡集群與萬卡集群有本質區別。
國產“十萬卡”集群加速落地
“芯片問題其實沒必要擔心,用疊加和集群等方法,計算結果上與最先進水準是相當的。” 華為總裁任正非的這番表態,不僅增強了社會各界對中國 AI 發展的信心,也凸顯了集群計算在 AI 研發應用中的關鍵地位。 從曾經的 「萬卡集群」 入場券,到如今 「十萬卡集群」 新目標,國內智算中心建設不斷邁向新高度。
去年 9 月,一項瞄準十萬卡超大規模算力的單體集群建設計劃——算海計劃「二期宣佈落地啟動」。 “算海計劃”取“海納百川、聚沙成塔”之義,劍指籌建面向模型訓練的大規模單體集群。 據介紹,「算海計劃」二期由北京並行科技股份有限公司(以下簡稱並行科技)發起,合作夥伴北京智譜華章科技有限公司、北京面壁智慧科技有限責任公司、中國移動通信集團湖北有限公司武漢分公司、中國聯合網路通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學資訊中心、內蒙古新東吉泰科技公司參與啟動儀式。 在內蒙古和林格爾,佔地超 50 畝的「算海計劃」一期建設專案已於今年 5 月上線運營,該項目規劃有 4000 個 20kW 高功率智算機櫃,最大可支持建設 6 萬卡規模的單體智算集群。 在距離該項目不超過 100 米處,「算海計劃」二期專案已規劃上馬,二期將依託單一大集群進行統一管理和調度,可容納高達 10 萬卡的強大算力資源。
2024 年 7 月底,甘肅億算智慧科技有限公司已在慶陽投資 3.07 億元建成了中國首個國產萬卡推理集群。 而在今年 6 月,甘肅億算及其生態合作夥伴計劃出資 55 億元,建設“國產十萬卡算力集群”,提供不低於 2.5 萬 P 算力服務,預計於 2027 年 12 月 30 日前建成並投入使用。 本次擬落地慶陽的十萬卡算力集群,計劃全部採用國產晶元與自主架構,深度融合慶陽能源優勢與長三角技術勢能,構建“西部算力+東部智慧”全國聯動,打造開放算力平臺,為 AI 大模型訓練與科學計算築牢“中國底座”。
位元組跳動在智算領域的布局同樣雄心勃勃。 2024 年,其資本開支達 800 億人民幣,接近 BAT 三家總和(約 1000 億人民幣)。 預計 2025 年,這一數位將翻倍至 1600 億人民幣,其中 900 億用於 AI 算力採購,700 億投向數據中心基礎設施建設及配套硬體。 據第三方機構測算,以 400T (FP16) AI 算力卡為標準,位元組跳動當前訓練算力需求約為 26.73 萬張卡,文本推理算力需求約為 33.67 萬張卡,未來推理算力需求有望突破 230 萬張卡。
國產 AI 晶元公司,得到利好
在這股熱潮中,有能力建設十萬卡集群的國產 AI 晶元公司也將獲得利好。
在 6 月 20 日舉行的華為開發者大會 2025(HDC 2025)上,華為常務董事、華為雲計算 CEO 張平安宣佈,基於 CloudMatrix384 超節點的新一代昇騰 AI 雲服務全面上線,為大模型應用提供澎湃算力。 通過 432 節點級聯,可構建 16 萬卡超算集群,滿足十萬億參數級大模型訓練需求,突破傳統架構擴展極限。
华为云新一代昇腾AI云服务基于CloudMatrix384超节点,首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成一台超级“AI服务器”,单卡推理吞吐量跃升到2300 Tokens/s。
超节点架构能更好地支持混合专家MoE大模型的推理,可以实现“一卡一专家”,一个超节点可以支持384个专家并行推理,极大提升效率。同时,超节点还可以支持“一卡一算力任务”,灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升50%以上。同时,超节点还可以支持训推算力一体部署,如“日推夜训”,训推算力可灵活分配,帮助客户资源使用最优。
此外,百度的百舸4.0通过HPN高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新,已经能够实现十万卡集群的高效管理。
腾讯去年也宣布了自研星脉高性能计算网络全面升级,星脉网络2.0搭载全自研的网络设备与AI算力网卡,能够支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。
阿里方面同样释出消息,阿里云可实现芯片、服务器、数据中心之间的高效协同,支持10万卡量级的集群可扩展规模,已服务全国一半的人工智能大模型企业。
算力互联网和东数西算打通市场堵点
当前,我国智能算力供不应求的问题较为突出,大模型对算力的需求增速远超单颗AI芯片性能的提升步伐。相关报告显示,2023年,中国智能算力需求达123.6EFLOPS,而供给仅为57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解AI算力荒最值得探索与实践的有效途径。
“十万卡集群”建成后如何充分挖掘其应用价值,使其在人工智能训练、大数据分析等适配场景发挥最大作用,杜绝资源空置与浪费现象的问题亟待解决。智算中心的建设只是一个开端,更重要的是后续的有效运用。也就是说,如何打通市场堵点才是关键。在此背景下,为解决相关市场堵点,算力互联网和东数西算被提出并受到广泛关注。
算力互联网,并非一张全新的网络,而是基于现有互联网,将各地分散的算力资源连接起来,借助标准化的算力标识与协议接口,跨域实现资源互联网络,达成全网异构算力的智能感知、实时发现与随需获取。简单来说,它就是一张服务于算力流动的网络,旨在进一步推动算力的互联互通,盘活现有算力资源,提升使用效率,降低使用成本,为用户带来更优质的体验。5月17日,中国信通院会同三大运营商联合启动“算力互联网试验网”建设,并发布《算力互联网体系架构 1.0》。这一举措旨在面向通算、智算、超算,以及云、边、端等公共算力资源,实现三家运营商自有算力和全国分散社会算力的互联,让用户能便捷地“找、调、用”算力。未来,用户有望像按“千瓦时”用电一样,按“卡时”灵活购买使用算力资源,实现用多少买多少的便捷服务。
而东数西算工程,则是通过构建数据中心、云计算、大数据一体化的新型算力网络体系,把东部的算力需求有序引导至西部,优化数据中心建设布局,促进东西部协同联动。2022年2月,国家在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽节点,并规划10个国家数据中心集群,标志着东数西算工程正式全面启动。其核心目的是让西部的算力资源更充分地支撑东部数据的运算,为数字化发展赋能。一方面,能缓解东部能源紧张问题;另一方面,为西部开辟新的发展道路。
通过算力互联网和东数西算的协同推进,有望打通市场堵点,优化算力资源配置,推动我国AI产业的持续健康发展。一方面,算力互联网能实现算力资源的跨区域、跨行业流通,提升资源利用效率;另一方面,东数西算可利用西部的能源和土地资源优势,降低算力成本,同时缓解东部的数据中心建设压力。二者相辅相成,共同为我国智能算力供需失衡问题提供解决方案。
如果说2024年是我国万卡集群的元年,2025年,十万卡集群也要来了。
本文来自微信公众号“半导体产业纵横”(ID:ICViews),作者:鹏程,36氪经授权发布。