更新時間:2025年02月12日 5421瀏覽
近日,隨著DeepSeek的熱潮席卷全球,人工智能競賽也正式切換賽道進入"算法驅動算力"的深度博弈期,中國智算基礎設施也正面臨歷史性轉折,DeepSeek開源生態催生的算法革命,正在重構國產AI芯片的軟硬協同范式。政策與技術的雙重變量已按下產業升級快進鍵,推動智算建設從粗放堆砌向"效能躍遷"的戰略轉型,將成為未來三到五年檢驗中國智算體系競爭力的核心標尺。
中國智能計算中心(智算中心)在市場需求、技術演進、成本控制、商業模式以及建設方案等方面,都面臨新的機遇與挑戰。
2023年,各路玩家競相訓練基礎模型,但到2024年中期,由于前期算力投資過大導致投資回收期過長,許多大模型放緩了新模型訓練計劃,導致高端算力一度過剩。
但DeepSeek的橫空出世迫使大模型公司估值重構,加速重構算力市場投資邏輯。據專業機構AI產品榜統計(2025/01/11-2025/1/31),僅包含應用(APP)全球iOS、海外GP、以及國內安卓市場,不含網站(Web),DeepSeek的MAU(月活)已經超過3370萬,DAU(日活)達到2215萬,成為全球日活總榜第二,僅次于第一名的ChatGPT(5323萬)。也正因為此,春節后開工以來,大家使用DeepSeek收到的最多的回復就是“服務器繁忙,請稍后再試。”
這一現象也在一定程度上表明國產智能算力能力的不足,國產智算集群的高效建設運營仍需時日。預計隨著生成式AI應用落地,推理算力需求將呈現爆發。Mate創始人扎克伯格和微軟CEO薩提亞·納德拉等業內巨頭也強調,隨著AI效率提高、易用性增強,企業對AI服務的需求將呈指數級增長。他們認為持續的大規模算力投入將成為保持競爭力的關鍵。
因此,進入2025年幾大科技巨頭資本開始均出現大幅上漲,其中谷歌、Meta都超過了50%,亞馬遜則超過40%,其他科技大廠也均出現不同程度的上漲。
與此同時,隨著AI應用下沉,企業還關注將推理部署到邊緣以降低時延和帶寬占用。運行大型模型的精簡版本于本地設備已成為趨勢,使服務更實時可靠,并降低云端壓力。例如,DeepSeek-R1等新一代開源模型宣稱實現小型化部署,能在筆記本乃至嵌入式設備運行強大的推理功能。這意味著智算中心不僅需提供云端算力,還可能扮演邊緣AI的訓練支撐與協同角色,為邊緣設備提供預訓練模型和更新支持。在未來,中心-邊緣協同的計算架構將更普遍:中心負責訓練大模型和復雜推理,邊緣負責本地實時推理,兩者共同滿足企業的AI需求。
智算中心作為大型數據中心的特殊形態,在選址規劃、基礎設施和能效優化等建設環節有其獨特考量。未來3-5年,新技術和新要求將引導智算中心在建設層面實現升級,除選址、供電、冷卻、網絡架構以及能源效率優化方面之外,核心成本的趨勢變化更值得關注。
智算中心的建設和運營成本主要包括硬件設備投資、能源消耗、冷卻基礎設施和日常維護等方面。未來3-5年,這些成本因素的趨勢和優化策略如下:
>>硬件成本趨勢
構建智算中心需要大量高端CPU、GPU/TPU等加速器以及高速網絡存儲設備。隨著半導體工藝提升和市場規模擴大,單位算力成本總體呈下降趨勢,但尖端AI芯片仍價格不菲,且中美技術博弈可能影響進口高端GPU的供給。中國正推進國產AI芯片替代,以緩解成本和供應壓力。然而,考慮到未來模型規模增長快于硬件性能提升,滿足需求仍需要更多設備投入。例如,一個支持大模型訓練和推理的智算中心配置1250臺服務器,每年光折舊和電費運行成本就高達10億元人民幣??梢娪布度牒驼叟f是巨大的成本壓力。未來如果采用Chiplet技術的國產加速器批量上市,有望降低采購成本并減少對受限進口器件的依賴。此外,硬件模塊化設計也將流行,便于漸進擴容,避免一次性巨額投資。
>>能源與冷卻成本
智算中心由于大量使用GPU等高功耗芯片,能耗極為驚人。據報道,AI數據中心的耗電量可達傳統CPU數據中心的4倍。電力成本在運營支出中占很大比例,甚至決定項目盈虧。因此能源價格走勢直接影響智算中心成本結構。未來隨著全球能源轉型和碳排放約束,能源成本中樞可能上升,倒逼數據中心提升能效。冷卻也是重要的耗能環節,傳統風冷方式在高密度AI算力場景下效率有限,需要大量空調制冷功耗。為降低PUE,許多新建智算中心開始采用液冷或浸沒式冷卻(詳見后文),短期投入增加但可換取長期電費的大幅節省。總體而言,能源成本將趨于上升,而先進冷卻和能耗管理技術是主要的降本途徑。
>>運維和管理成本
智算中心的日常運營涉及人員、維護、網絡帶寬等花費。隨著AI集群規模擴大,智能化運維將成為必然選擇,通過自動化軟件和AI運維系統降低人力成本。比如利用AI進行故障預測、流量調度,可以減少宕機損失和人工干預。此外,采用統一的云平臺管理多租戶資源,可以提升利用率、減少閑置,從而攤薄單位算力的運維開銷。在網絡成本方面,若大流量訓練數據需要從遠端傳輸,運營商專線費用不容忽視。未來可能通過分布式存儲和邊緣預處理來減少跨地域傳輸量,從而節約帶寬成本。
>>大模型訓練與推理的成本優化
面對日益高昂的訓練費用(據估算訓練一個大型LLM模型電費可達數百萬美元量級),各方都在尋求降本增效策略:
① 算法層面:正如前述,利用模型剪枝、量化來減少計算;采用更高效的優化器和并行算法(如優化的并行通信算法減少GPU等待時間)。這些都直接降低了完成同一任務所需的計算總量。例如微軟的1-bit LAMB優化器將通信量降低4.6倍,可在多機情況下節省大量網絡開銷,從而節約時間和電力成本。
② 硬件層面:選用高能效比的芯片。例如最新一代GPU每瓦性能明顯優于上一代,盡管購置貴但長期能耗省錢。也可以針對推理使用專用ASIC(如Edge TPU、Inferentia等)來降低成本和功耗。智算中心可能會區分訓練集群和推理集群,訓練用最高端GPU,推理則用成本更低的加速卡,從而優化整體投入產出比。
③ 資源調度:通過云平臺實現彈性算力供給。在訓練高峰期動態擴容GPU實例,閑時降頻或關機部分節點,避免不必要的能耗。先進的調度系統還能在電價低谷時執行耗能任務,在高峰時暫停,平滑電力開銷。這種“削峰填谷”的策略需要和電網調度聯動,以獲得更低電價,降低運營成本。
④ 復現和共享:越來越多企業選擇不從零開始訓練大模型,而是復現開源模型(如DeepSeek、LLaMA、ChatGLM等)進行微調。這大幅降低了計算量需求。例如開源LLM的普及使企業可以用幾張GPU在智算中心完成定制微調,而不必像以前那樣投入上千GPU訓練基礎模型。對于智算中心而言,這意味著單個任務的算力租用時長可能縮短,但任務數量會增多,因為更多中小企業也能承擔微調所需的較小算力。因此運營方應調整計費模式,如提供更細粒度的按時計費或套餐,吸引這部分客戶,提高整體設備利用率。
總之,智算中心建設與運營成本在未來幾年會呈現硬件資本支出和能源成本持續攀升,形成了“高開高走”的局面。然而,通過技術進步和精細化管理,單位算力的平均成本有望實現“中間降”的趨勢。例如,算法優化在突破模型或研發階段不會降低對算力的需求,只有到應用階段才會逐漸降低成本。行業競爭和規模效應也將迫使服務價格下降,推動運營方不斷優化成本結構。那些能夠在保證性能的前提下降低PUE、提升設備周轉率的智算中心,將在激烈的市場競爭中獲得優勢。
智算中心作為算力服務的提供者,其商業模式和盈利邏輯將在未來幾年發生演變,受開源生態、云服務模式以及算力需求變化等因素影響。
>>普惠紅利、服務重構與算力突圍
隨著DeepSeek-R1等開源模型的突然爆發,加之近年涌現了許多開源大模型(如BERT、Stable Diffusion、LLaMA系列等),這些模型性能接近商業產品且免費使用。這對智算中心將產生以下幾個方面的影響:
① 降低進入壁壘,擴大用戶群:開源模型使得眾多中小企業和開發者也能開展AI應用研發,但他們通常缺乏自有算力,于是會尋求智算中心的算力租賃來運行和微調這些模型。換言之,開源模型拓寬了市場蛋糕,長尾客戶對算力服務的需求被激發出來,智算中心可以通過提供低成本、易用的算力來服務這一批量巨大的新客戶,從而增加營收。
② 壓縮高端服務溢價:以前少數巨頭掌握頂尖模型,智算中心若能提供對這些模型的API服務,可收取高溢價(因為模型本身稀缺且有知識產權)。但開源模型普及后,算力提供逐漸同質化為純算力比拼,難以因為“獨家模型”而提價。因此智算中心需要轉變思路,從賣模型轉向賣算力和配套服務。在盈利模式上,更類似傳統云計算的按性能/時長計費,而非按功能算法收費。這將倒逼運營商提高運營效率,以更低成本提供算力,否則利潤空間會被壓縮。
③ 增值服務機會:盡管模型開源,但很多企業缺乏將其高效部署的能力。因此智算中心可以提供增值服務來創造收益,例如為客戶優化開源模型(剪裁加速、部署優化)、提供預訓練模型庫和一鍵調用接口(即Model-as-a-Service,MaaS),甚至輸出整套解決方案。這些增值部分可以成為新的利潤點,部分彌補算力商品化導致的毛利下降。
④ 云化轉型、期貨交易與生態聚合:智算中心的發展與云計算密不可分。未來算力服務將更加云化、平臺化。
>>彈性調度、差異競爭與綠色協同
面對未來算力需求的演變,中國智算中心需相應調整運營戰略:
① 提升資源利用率:正如前述,目前部分智算中心存在資源閑置。運營方將更加重視提高上架率和利用率,通過引入多元用戶、彈性計費來避免算力空轉。同時采用先進的調度和虛擬化技術,將碎片化的算力拼租給不同用戶,以“切片”形式提供服務,做到“閑時賣給小客戶,忙時保障大項目”。
② 區域協同運營:在“東數西算”背景下,可能出現跨區域運營聯盟。比如東部的數據需求峰值可以動態調度到西部算力中心處理。這需要運營商之間共享調度系統和收益分配機制,實現異地算力統一編排。這種協同有助于提升整體算力利用,并為客戶提供更彈性的服務(按需調用全國算力)。運營商可能通過并購或聯盟擴大覆蓋范圍,形成“一云多中心”的運營格局。
③ 差異化定位:隨著智算中心增多,差異化競爭顯得重要。有的中心可能專注于訓練型算力服務,提供超大規模GPU集群供企業訓練前沿模型;有的則定位為推理服務平臺,著重優化延遲和成本,托管大量線上推理請求;還有的結合本地產業成為行業算力中心,比如醫療AI計算中心、自動駕駛仿真中心等,提供垂直優化的軟硬件環境。通過差異化,智算中心可以避開純價格戰,在細分領域形成品牌溢價。
④ 綠色和社會效益:未來運營策略還需考慮 ESG(環境、社會、治理)因素。打造綠色低碳成為招攬客戶和政府支持的賣點,智算中心可通過使用清潔能源、碳中和運營來獲得政策優惠和社會認可。同時,通過為本地AI產業提供基礎設施,帶動就業和創新,也是爭取政府資金支持的重要邏輯。因此,智算中心運營不再僅僅是商業利潤考量,也涉及政策配合和社會價值創造,這將反映在其戰略定位上。
未來中國智算中心將在商業模式上更加靈活多元,從單純賣算力設備轉向提供綜合AI算力服務。開源大模型、云服務模式使算力服務趨于大眾化和商品化,運營商唯有提升效率、增加附加服務才能獲取穩健收益。同時,緊跟政策導向、強化合作共贏,將使智算中心在算力需求的浪潮中立于不敗之地。
總之,展望未來3-5年,中國智算中心將在市場驅動下迅速發展,但同時面臨技術革新和成本控制的多重挑戰。從需求側的大模型熱潮、各行業上云用AI,到供給側的新架構芯片、綠色能源方案,智算中心需要不斷演進才能匹配時代要求。可以預計,經過這幾年的探索,中國智算中心將逐步形成高效集約、技術先進、綠色低碳、商業多元的發展格局,成為支撐數字經濟和AI產業騰飛的重要基石。各參與方唯有緊抓趨勢、前瞻布局,方能在新一輪算力競賽中取得領先地位。
說明:文章內容素材來源于中國IDC圈,圖片素材來源于網絡,侵刪!