經濟觀察報 關注
2025-11-14 22:07

經濟觀察報記者 鄭晨燁
2025年下半以來年,AI算力市場的“功夫”熱詞,莫過于超節點(SuperNode/SuperPod)。
7月,在世界人工智能大會(WAIC)上,華為、中興通訊(000063.SZ)和超聚變數字技術有限公司各自展示了超節點方案;7月27日,紫光股份(000938.SZ)子公司新華三發布了H3C Uni-PoD系列超節點;8月,浪潮信息(000977.SZ)推出了元腦SD200超節點;8月28日,百度發布了昆侖芯超節點;9月18日,華為在全聯接大會上發布了Atlas 950/960超節點;阿里巴巴也在當月的云棲大會上亮出了磐久128超節點;11月6日,中科曙光(603019.SH)在烏鎮發布了號稱“全球首個單機柜級640卡”的scaleX640;11月13日,百度在北京又拿出了天池256/512超節點。
各家發布的參數一個比一個“猛”,比如在2025年中國國際大數據產業博覽會上,華為數字政府系統部CTO馬華民表示,華為384超節點服務器的集群算力是英偉達同類設備的1.67倍。
超節點這個聽起來技術門檻很高的產品,到底是什么,又為何一夜之間成為國內廠商的標配?
起底超節點
在行業內,超節點這個詞時常被混用。
目前,業內對超節點至少有兩種層級的劃分,一是指在單機柜內部實現高速互聯,有廠商稱之為“SuperNode”;一種指由跨機柜組成的集群級互聯,英偉達最早提出的“SuperPod”就屬于這一類。
廠商扎堆發布超節點,與當前AI大模型面臨的瓶頸有關。
運行訓練參數超過萬億級別的AI大模型,一張芯片裝不下、也算不動,唯一的辦法是把活兒拆開,大家一起干,這在行業里叫“并行計算”。記者采訪業內人士了解到,在超高參數級別的大模型訓練中,計算單元約40%的時間都在“空等”通信,芯片們不是在“計算”,而是在“排隊等消息”。這個瓶頸被業內稱為“通信墻”。
為了拆掉這堵墻,超節點應運而生。
目前,行業主要有兩種構建大規模GPU(圖形處理器)集群的方式:Scale-Out(橫向擴展)和Scale-Up(縱向擴展)。其中,Scale-Out是傳統辦法,簡單來說就是把多臺獨立的服務器用網線連起來,組成擁有上百臺,乃至上千臺機器的集群。Scale-Up則是增加單個節點內的資源數量。節點指系統中一個獨立的計算單元。在AI訓練中,一塊GPU或一整臺訓練服務器都可以稱為一個節點。
超節點就是把幾十張乃至上百張卡放進一臺大機柜,用內部的“高速路”連接起來,讓它們像一塊超級芯片一樣工作。
在超節點的設計中,Scale-Up通過單機柜內集成更多芯片來提升性能,Scale-Out則通過跨機柜互聯實現更大規模的集群。
因此,各家廠商在發布超節點產品時所標注的數字,如“384”“640”“512”等,通常指該超節點單機柜或單系統內集成的AI訓練芯片(如GPU、NPU等)數量。例如,華為昇騰384超節點就表示在一個超節點單元中集成了384顆昇騰AI芯片。中科曙光scaleX640意味著單個標準機柜內可部署640張AI計算卡。
該數字也成為衡量超節點規模與算力密度的核心指標,能直觀反映相關廠商在系統集成和高速互連能力上的工程水平。
對于英偉達而言,Scale-Up和Scale-Out解決的問題不一樣。AI訓練中有多種“并行計算”方式。其中,PP(流水線并行)和DP(數據并行)的通信量相對較小,可以用Scale-Out的模式處理。但TP(張量并行)和EP(專家并行)的通信量極大,必須通過Scale-Up的方式解決。此外,兩者的性能差距非常大,Scale-Out網絡的通信時延通常在10微秒左右,而Scale-Up網絡(如英偉達的NVLink)的目標是要做到百納秒級別。
“通信墻”問題之所以在2025年變得如此尖銳,與AI應用本身的變化也有關系。比如,華南一家芯片企業的工程師王先生告訴記者,現在行業對于AI的需求正從“一個模型回答一個問題”,轉向需要多個模型協同工作的智能體,即AI Agent;但“智能體”在執行一個復雜任務時,可能需要同時調用代碼模型、邏輯模型和知識模型,并讓它們進行實時交互。
這種多模型實時交互的模式,讓Token(數據量)的生成規模遠超傳統方式。這種高頻、海量的通信需求,也讓Scale-Out網絡“10微秒”的通信時延,累積成了性能瓶頸。廠商們必須轉向Scale-Up。
如果說英偉達選擇超節點是為了追求更極致的性能,國內廠商集體選擇這條路,更多是被現實倒逼的選擇。
11月12日,野村中國科技及電訊行業分析師段冰在接受經濟觀察報采訪時認為,目前國內單芯片的算力有一定短板,因此需要通過構建多卡的超節點模式獲得整體上算力的供應。
中科曙光總裁助理、智能計算產品事業部總經理杜夏威對記者說:“在單點芯片層面上,我們還是不能夠實現超越的。”
單卡追不上的現實迫使相關廠商在系統上尋找優勢,超節點成為了破局的關鍵。“既然單點有差距,(我們)就需要在系統級上有優勢。”杜夏威說。
對標
英偉達是超節點概念最早的提出者。當國內廠商集體涌入這條賽道時,對標英偉達甚至是超越英偉達,往往就會成為發布會的主題。
在9月18日的全聯接大會上,華為副董事長、輪值董事長徐直軍公開了華為的AI算力版圖,并宣布華為將于2026年四季度上市的Atlas950超節點(支持8192卡),將“在各項主要能力上都遠超業界主要產品”。
徐直軍還給出了對比數據:相比英偉達同樣將在明年下半年上市的NVL144,Atlas950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,互聯帶寬是其62倍。
其他廠商也在參數上“寸土不讓”。英偉達在售的旗艦產品 GB200NVL72,是將72個GPU(圖形處理器)集成到一個液冷機柜中。國內廠商們也紛紛在“單柜集成度”上發起猛攻。
11月6日,中科曙光在烏鎮世界互聯網大會上發布的scaleX640超節點,宣稱是“全球首個單機柜級640卡”集成的產品。
將640張高功率芯片放進一個標準機柜,這在工程上要先解決三個“硬骨頭”。
“一是要有非常先進的冷卻技術;二是要有非常先進的供電技術;三是要有比較好的硬件架構,能把這么多卡連起來。”杜夏威稱,通過這些系統工程創新,scaleX640實現了“單機柜640卡超高速總線互連”,與業界同類產品相比,單機柜算力密度提升了20倍。
在當前國產AI芯片單卡算力、軟件生態尚難與英偉達H100/B100正面硬剛的情況下,“堆量”成為國內廠商相對務實的突圍策略:即用更高的集成密度,把更多計算單元放進同一個高速通信域里,從而在整體訓練效率和單位算力成本上扳回一城。
此外,AI訓練需要芯片間的高頻通信。在超節點內部互聯層面,行業內也出現了不同的技術路徑,一是以英偉達NVL72為代表的高速銅纜(電互聯)方案;二是以華為昇騰為代表的“去銅全光”(光互聯)方案。
杜夏威說,這是目前行業的主流思路,“柜體內用銅和電,柜間用光”。對于此中原因,杜夏威解釋稱,光模塊的“功耗、可靠性、成本都是沒有完全解決的問題”,銅互聯(電互聯)雖然可靠且成本低,但在傳輸距離上有限制,高速銅互聯的有效距離僅在1米左右。
國產廠商們的思路也因此變得清晰:盡可能在1米左右的銅互聯范圍內塞進更多計算卡。誰塞的卡越多(集成度越高),誰就能用更多的“銅”替代昂貴的“光”,從而在系統總成本和通信效率上獲得杜夏威口中的“競爭優勢”。
但堆量并非沒有代價。
第一個代價就是功耗和散熱。把幾百張高功率芯片塞進一個機柜,產生的熱量是驚人的。比如,英偉達的GB200NVL72,單柜72卡的功耗就已達到120千瓦(kW)。這使得“液冷”成為必需品,即將芯片等發熱部件直接泡在特殊液體里,依靠液體沸騰蒸發帶走熱量,達到散熱目的。
第二個代價是互連本身的工程復雜度。公開信息顯示,英偉達的GB200NVL72機柜,為了連接72張卡,內部需要鋪設5000多條、總長度接近3200米的獨立銅纜。當集成度從72卡提升到128卡、384卡乃至640卡,其內部走線和連接的復雜度可想而知。
另外,在核心的“互聯協議”,即芯片間“對話的語言”上,國內廠商也分化出了不同路徑。如英偉達的“護城河”就是其私有的NVLink協議。
華為選擇自研垂直一體的靈衢(U-nifiedBus)互聯協議。徐直軍稱其目標是“萬卡超節點,一臺計算機”。靈衢試圖做到“統一通信協議與內存編址”,讓系統內所有CPU(中央處理器)和NPU(神經網絡處理單元)能“聽懂彼此的話”,實現全局資源池化。在9月18日的大會上,徐直軍宣布將開放靈衢2.0技術規范,目的在于讓其他廠商能基于此開發產品,共建靈衢的開放生態。
阿里、新華三等則選擇了開放兼容。比如阿里的磐久AL128采用非以太的ALink協議,并支持UALink(加速卡超級互聯聯盟)國際開放標準;新華三也公開表示正積極參與UALink和UEC(超以太聯盟)等國際組織的標準建設。
挑戰
除了代價,堆量也不能解決所有問題。
段冰認為,對于當前的超節點而言,硬件層面的功耗、通信效率等問題都是客觀存在的,但這些硬件和工程層面的問題“不會是非常大的瓶頸”,隨著經驗的積累,國內廠商結合之前網絡技術方面的優勢,可以補上來。
真正的挑戰在其它方面,比如軟件生態和底層算力交互的軟件。段冰認為這些短板可能需要花更多時間才能補足。
軟件生態是國產算力廠商們面臨的共同挑戰,廠商自己對此也有清醒認知。
杜夏威表示,用戶在選擇方案時,首先會考慮這個應用能不能有效落地,能不能跑起來?這里的關鍵就在于有沒有很好的軟件生態。他認為硬件參數只是基礎,最終效果在于用戶能用得起來,而不僅僅是停留在噱頭層面。
硬件參數比拼激烈,軟件生態短板明顯,誰在為這些動輒數百卡、售價高昂的超節點買單?
在TrendForce集邦咨詢資深分析師龔明德看來,從全球AI服務器的需求看,未來兩到三年,主導角色還是大型互聯網企業,因為這些企業有客戶基礎,以及擁有較完整多元的服務形態。
龔明德認為另一個采購主力將是國家主導的主權云服務,這類算力中心的目的在于“提供本地化中小企業租賃服務或發展AI使用”。
大型互聯網企業和主權云構成了需求的主力,但其中也存在變數:頭部互聯網企業雖有技術能力消化高端算力,但其資本開支正在趨于理性;主權云雖有政策驅動,卻容易陷入“為建而建”的陷阱。
在工信部信息通信經濟專家委員會委員盤和林看來,國內AI算力的熱度與海外基本同步,并未脫離全球趨勢,“隨著海外算力出現泡沫,國內當然也會有一些泡沫,但這是全球趨勢,并非人為因素”。
盤和林擔心的是算力建設的“一廂情愿”。他認為建設算力中心應該是企業和市場決定的事,“政府和國企要避免‘一廂情愿’,比如在不需要算力的地方強行推進算力產業發展”,云計算廠商最懂得在哪些區域建設算力最經濟。
這種“一廂情愿”的風險還與AI應用的實際落地情況有關。盤和林說,目前AI算力最大的場景是AIGC(生成式AI),“現階段落地較快,場景很豐富”,但在其它被寄予厚望的領域,如“AI+”領域的智能制造,“對算力的預期和實際之間有落差”。“AIGC會是一種選擇,但不會是唯一方案,關鍵還是要看具體的需求場景。”盤和林說,算力的價值最終將由真實業務來定義,而非相反。
對于AIGC之外更大規模應用場景的爆發,段冰的態度比較樂觀。他認為,真正具備長期潛力的方向是機器人、高階自動駕駛等與先進制造深度綁定的領域,“這些場景一旦跑通,對算力的需求將是持續且剛性的”。
至于金融、醫療等行業,雖然已有不少試點項目,但段冰覺得這些行業目前仍處于“從單點驗證走向規模化復制”的早期階段。
這意味著國產廠商眼下這場圍繞超節點的突圍戰,除了要解決硬件代差、軟件生態等短板,還要耐心等待、甚至主動培育尚未完全到來的大場景需求。
京公網安備 11010802028547號