每日經(jīng)濟新聞 2025-12-22 20:05:22
每經(jīng)記者|楊卉 每經(jīng)編輯|魏文藝
12月20日,摩爾線程首屆MUSA 開發(fā)者大會(MDC 2025)在北京中關(guān)村國際創(chuàng)新中心開幕。
在MDC 2025的主論壇環(huán)節(jié),中國工程院院士、清華大學(xué)計算機系教授鄭緯民提出,在芯片產(chǎn)業(yè)全球化分工遭遇技術(shù)封鎖的背景下,構(gòu)建中國“主權(quán)AI”計算引擎成為緊迫任務(wù),要實現(xiàn)“主權(quán)AI”,需從算力自主、算法自強、生態(tài)自立三方面入手。
從“主權(quán)AI”基建的角度出發(fā),發(fā)展國產(chǎn)萬卡/十萬卡系統(tǒng)是不得不走的一步,但仍需解決互聯(lián)網(wǎng)絡(luò)與拓?fù)洹⒖煽啃耘c運維、能耗與供電散熱等方面的問題。至于國產(chǎn)芯片廠商都要面對的終極問題——生態(tài)建設(shè),在鄭緯民看來,真正決定“主權(quán)AI”生態(tài)成敗的,是有沒有足夠多的開發(fā)者愿意長期在這套棧上寫代碼。未來,國產(chǎn)平臺要提高用戶的開發(fā)體驗,還需解決遷移成本高、工具鏈不成熟、文檔/社區(qū)與支持不足等問題。
如何實現(xiàn)算力自主?
過去很長一段時間,芯片產(chǎn)業(yè)一直處于全球化分工的狀態(tài),架構(gòu)設(shè)計、制造裝備、代工、封測等環(huán)節(jié)均涉及不同領(lǐng)域。然而,近年來,高端AI(人工智能)芯片面臨出口管制、技術(shù)封鎖等困境,算力從一般生產(chǎn)要素上升為戰(zhàn)略資源,“主權(quán)AI”也從學(xué)術(shù)討論逐步變?yōu)槊總€國家必須回答的現(xiàn)實問題。
鄭緯民認(rèn)為,要實現(xiàn)“主權(quán)AI”,有三個支柱需要同步配備:算力自主、算法自強、生態(tài)自立,三者互為前提,相互約束,共同構(gòu)成“主權(quán)AI”。
《每日經(jīng)濟新聞》記者了解到,具體來看,算力自主是物理層的“安全底座”。
鄭緯民強調(diào),所謂算力自主,是指自主可控的芯片與加速器、可持續(xù)的代工與供應(yīng)鏈、可靠的機房以及電力與網(wǎng)絡(luò)基礎(chǔ)設(shè)施,最終目標(biāo)是不被單一外部算力平臺“卡脖子”,關(guān)鍵行業(yè)與基礎(chǔ)設(shè)施能夠在本土算力上運行。
鄭緯民進一步表示,要實現(xiàn)這一目標(biāo),則需做到三點:第一,芯片設(shè)計能力方面需有自主權(quán),包括GPU(圖形處理器)/加速器、架構(gòu)設(shè)計指令集規(guī)劃、片上互連與存儲架構(gòu)等;第二,制造與供應(yīng)鏈風(fēng)險要可控,即在現(xiàn)有全球產(chǎn)業(yè)格局下,通過多源代工、庫存策略與本土化能力布局來降低斷供風(fēng)險;第三,系統(tǒng)與集群交付的能力要強,不僅能“造出卡”,還要能夠穩(wěn)定交付服務(wù)器與大規(guī)模集群,并具備持續(xù)運維與優(yōu)化的能力。
“這三條做到了,才是算力自主。”鄭緯民表示。
據(jù)《每日經(jīng)濟新聞》記者了解,算法自強是指在國產(chǎn)算力上做“原生創(chuàng)新”。以GPU為例,需要其做到能針對大模型做適配,如支持Transformer、MoE等主流與前沿模型結(jié)構(gòu);能做大模型的訓(xùn)練,可支持千億級、萬億級參數(shù)級別的預(yù)訓(xùn)練與多任務(wù)訓(xùn)練;能讓模型進一步優(yōu)化,在國產(chǎn)算力環(huán)境下探索更適配本地應(yīng)用與數(shù)據(jù)特點的模型架構(gòu)。
最后一個支柱是生態(tài)自立。在鄭緯民看來,真正決定“主權(quán)AI”生態(tài)成敗的,是能否有足夠多的開發(fā)者愿意長期在這套棧上寫代碼,某種程度上,生態(tài)建設(shè)甚至比算力和算法更為重要。“不是說芯片上能跑一個軟件就可以了,要(讓用戶)愿意用這個芯片。”
這就要求廠商以開發(fā)者為主來提供解決方案,要求廠商在關(guān)鍵工具鏈、自研框架與驅(qū)動上具備持續(xù)迭代的能力,而不是完全依賴單一的境外生態(tài)。
鄭緯民強調(diào),開發(fā)者才是生態(tài)的核心資源,平臺的成敗由開發(fā)者決定。因此,國產(chǎn)平臺急需解決遷移成本高、工具鏈不成熟、文檔/社區(qū)與支持不足等問題,盡可能兼容主流框架(如PyTorch、TensorFlow、PaddlePaddle等)與常見編程習(xí)慣(如CUDA風(fēng)格),最終目標(biāo)是實現(xiàn)從“能用”到“愿用”的根本性轉(zhuǎn)變。
做GPU要滿足三個要求
除了“主權(quán)AI”,鄭緯民還提到了AI+3D+HPC架構(gòu)建設(shè)的必要性。
“我們的物理AI與世界模型需要怎樣的芯片?大概有三個方面內(nèi)容:AI(大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與推理)、3D(高質(zhì)量圖形渲染與場景表示)、HPC(嚴(yán)格物理約束下的數(shù)值模擬與求解)。”鄭緯民表示。
鄭緯民還進一步強調(diào),做GPU 一定要滿足三個要求,即能實現(xiàn)完整的圖形流水線、可加強張量計算核心以支持主流框架、能提供高精度浮點單元用于科學(xué)計算。
值得注意的是,鄭緯民還提到了算力資源,從單卡到萬卡集群的轉(zhuǎn)變。
鄭緯民直言,從“主權(quán)AI”基建的角度出發(fā),發(fā)展國產(chǎn)萬卡/十萬卡系統(tǒng)等于本土大模型與行業(yè)模型的“母機”與基座,是不得不走的一步。一方面,模型時代算力的基本單位已經(jīng)是集群總算力,而不是單卡性能。另一方面,預(yù)訓(xùn)練超大規(guī)模模型、服務(wù)國民級推理需求都需要持續(xù)可用的萬卡級訓(xùn)練集群。
不過,《每日經(jīng)濟新聞》記者了解到,國產(chǎn)算力要做到萬卡甚至十萬卡的集群并不簡單。
從工程角度出發(fā),據(jù)鄭緯民介紹,互聯(lián)網(wǎng)絡(luò)與拓?fù)?、可靠性與運維、能耗與供電散熱都是需要解決的問題。
“十萬卡怎么連起來?十萬卡連在一塊,平均一個小時要出一次錯,出錯了如何繼續(xù)訓(xùn)練下去?十萬卡是一個‘大火爐’,電要供得上,散熱也要做得好。”在此背景下,鄭緯民認(rèn)為,國產(chǎn)集群第一步是先做到能用,然后才是好用。
在演講最后,鄭緯民提到了開源。
在鄭緯民看來,“后CUDA(英偉達生態(tài))時代”,模型使用者已經(jīng)是“使用開源項目”,而不是“使用CUDA”。因此,生態(tài)自立的一個現(xiàn)實路徑就是讓國產(chǎn)平臺成為開源創(chuàng)新的一個選擇。
鄭緯民指出,目前,產(chǎn)業(yè)仍面臨著內(nèi)卷與碎片化問題,如不同廠家提供不同的接口,需要開發(fā)者做不同的適配。
“我們要團結(jié)一心,解決應(yīng)用不足與生態(tài)薄弱的問題。產(chǎn)業(yè)界要團結(jié)起來,應(yīng)用也要團結(jié)起來。我一直強調(diào)生態(tài)問題不是一個廠家的問題,開發(fā)者要發(fā)揮很大作用,一起努力解決這個問題。”鄭緯民稱。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP