全球范圍內(nèi),多家大模型廠商都在采購(gòu)算力芯片并投資建設(shè)大型數(shù)據(jù)中心,大模型競(jìng)爭(zhēng)同時(shí)也是算力競(jìng)爭(zhēng)。今年兩會(huì)期間,如何解決大模型算力層面的算力短缺、異構(gòu)計(jì)算分散等問(wèn)題,成為了熱議話題。
全國(guó)政協(xié)委員、中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫谶^(guò)去一年里走訪了眾多算力中心及相關(guān)企業(yè)。根據(jù)了解到的行業(yè)現(xiàn)象,他今年提出了“關(guān)于超智融合突破‘算力圍城’”的提案,呼吁加快高端算力設(shè)施建設(shè),提升算力使用效率,以應(yīng)對(duì)人工智能大模型快速發(fā)展所帶來(lái)的“算力圍城”困局。
張?jiān)迫嬖V第一財(cái)經(jīng)記者,他走訪多個(gè)算力中心后,感觸最深的是國(guó)內(nèi)智算中心在算力、機(jī)架密度等方面與國(guó)際領(lǐng)先水平的差距。例如,國(guó)內(nèi)目前公開(kāi)報(bào)道的最大單體智算中心算力僅為萬(wàn)卡6.6Eflops(BF16精度),與國(guó)際領(lǐng)先水平差兩個(gè)數(shù)量級(jí);不少智算中心主流機(jī)架功率密度低于15kW,遠(yuǎn)低于高端AI功率密度要求;能支撐大模型訓(xùn)練的高端算力中心極為稀少且訓(xùn)練效率不超過(guò)30%。
“伴隨DeepSeek等開(kāi)源大模型涌現(xiàn),大模型在各個(gè)行業(yè)的應(yīng)用變多,這對(duì)算力基礎(chǔ)設(shè)施建設(shè)提出新需求。而當(dāng)前算力市場(chǎng)存在供需性矛盾,即算力結(jié)構(gòu)單一、高端算力緊缺。算力基礎(chǔ)設(shè)施與國(guó)際領(lǐng)先水平存在代際差異,制約了大模型迭代創(chuàng)新速度! 張?jiān)迫硎尽?/P>
張?jiān)迫蛴浾呓忉專(zhuān)懔Y(jié)構(gòu)單一是指很多智算中心設(shè)計(jì)只能支持低精度算力架構(gòu)、只能支持特定生態(tài)體系的大模型訓(xùn)練場(chǎng)景。造成這一現(xiàn)象的原因,包括核心芯片領(lǐng)域的很多國(guó)產(chǎn)AI芯片最高只能支持FP32精度的計(jì)算。隨著AI應(yīng)用場(chǎng)景增多、需求量增加,只滿(mǎn)足低精度訓(xùn)練的智算中心不能很好支持未來(lái)“超智融合”趨勢(shì)下的全精度算力需求。同時(shí),國(guó)產(chǎn)高性能可擴(kuò)展并行訓(xùn)練與推理編程框架和優(yōu)化工具鏈缺失,還導(dǎo)致國(guó)產(chǎn)大規(guī)模智算集群計(jì)算效率普遍偏低。
“超智融合”則是指將超算與智算的能力結(jié)合,“超智融合”目前被認(rèn)為有可能用于滿(mǎn)足各行業(yè)的多元算力需求。張?jiān)迫嬖V記者,“超智融合”能將國(guó)產(chǎn)超算幾十年間積累的架構(gòu)、芯片、并行與通信算法、算力調(diào)度與負(fù)載均衡乃至底層優(yōu)化等方面的關(guān)鍵技術(shù)和人才,賦能高端智算中心建設(shè)以及大模型高效訓(xùn)練推理優(yōu)化過(guò)程。
張?jiān)迫ㄗh,建設(shè)國(guó)家級(jí)大算力集群,引入先進(jìn)算力調(diào)度、分配、優(yōu)化和管理技術(shù),提高算力利用率,并積極引導(dǎo)基于全精度、大算力、高互連國(guó)產(chǎn)芯片,構(gòu)建新一代超智融合國(guó)家級(jí)算力中心。同時(shí),集中資源重點(diǎn)支持大模型領(lǐng)軍企業(yè),打造世界領(lǐng)先的開(kāi)源開(kāi)放主權(quán)級(jí)基礎(chǔ)通用大模型。
兩會(huì)期間,全國(guó)政協(xié)委員、京東集團(tuán)技術(shù)委員會(huì)主席曹鵬則關(guān)注到國(guó)內(nèi)異構(gòu)算力分散且利用率低、中小企業(yè)難以負(fù)擔(dān)大模型應(yīng)用的智算成本。對(duì)于以上問(wèn)題,曹鵬建議加強(qiáng)建設(shè)異構(gòu)算力以降低智算成本。例如,夯實(shí)自主可控的智算底座,通過(guò)存算協(xié)同發(fā)展降低企業(yè)智算成本。此外,建議推動(dòng)鏈主企業(yè)向中小企業(yè)開(kāi)放智算配額,實(shí)現(xiàn)產(chǎn)業(yè)智算普惠。
全國(guó)人大代表、科大訊飛董事長(zhǎng)劉慶峰關(guān)注的則是算力平臺(tái)的國(guó)產(chǎn)化話題。劉慶峰認(rèn)為,若不能加快解決國(guó)產(chǎn)自主可控人工智能產(chǎn)業(yè)生態(tài)薄弱、適配困難等問(wèn)題,做大模型無(wú)異于“在別人地基上建高樓”。他建議加快構(gòu)建國(guó)產(chǎn)算力平臺(tái)上的自主可控大模型及產(chǎn)業(yè)生態(tài),例如,鼓勵(lì)基于自主可控國(guó)產(chǎn)算力平臺(tái)的大模型研發(fā)和應(yīng)用,鼓勵(lì)央國(guó)企優(yōu)先采購(gòu)基于國(guó)產(chǎn)算力平臺(tái)研發(fā)的全棧自主可控大模型,專(zhuān)項(xiàng)支持基于國(guó)產(chǎn)算力平臺(tái)的生態(tài)體系建設(shè)。
DeepSeek出現(xiàn)后,近期業(yè)內(nèi)也在熱議大模型是否仍需大量算力支撐。就新的技術(shù)是否減少了大模型整體算力需求,張?jiān)迫嬖V記者,“小力出奇跡”并不意味著規(guī)模法則(Scaling Law)的破產(chǎn)。未來(lái),AI發(fā)展可能會(huì)呈現(xiàn)“雙軌并行”的格局,一方面,小而精的模型蓬勃發(fā)展,另一方面,通用基礎(chǔ)大模型仍會(huì)沿著Scalling Law路徑,繼續(xù)通過(guò)大算力投入、擴(kuò)展參數(shù)規(guī)模實(shí)現(xiàn)更強(qiáng)悍的性能。國(guó)內(nèi)發(fā)展通用基礎(chǔ)主權(quán)大模型是必要的,通用基礎(chǔ)大模型將作為AI技術(shù)的基石,為各行各業(yè)提供強(qiáng)大的基礎(chǔ)智能。