具身智能是人工智能(AI)與其他學(xué)科交叉融合發(fā)展的智能新范式,從字面可理解為“具身+智能”,通過賦予AI“身體”,能夠與現(xiàn)實(shí)產(chǎn)生交互,讓AI從僅存于數(shù)字世界的軟件算法走向真實(shí)的物理世界,并在物理世界也能呈現(xiàn)模擬人類甚至超越人類的智能水平。伴隨大模型的技術(shù)突破、硬件成本的降低、軟硬協(xié)同的不斷成熟,能夠主動(dòng)探索世界、認(rèn)識(shí)世界、改變世界的具身智能,有望成為邁向通用人工智能的重要驅(qū)動(dòng)力,同時(shí)不斷延伸和拓展AI邊界,實(shí)現(xiàn)“知行合一”。
2024年8月22日,2024世界機(jī)器人大會(huì)——具身智能產(chǎn)業(yè)趨勢(shì)與未來發(fā)展論壇上,中國(guó)信息通信研究院(簡(jiǎn)稱“中國(guó)信通院”)與北京人形機(jī)器人創(chuàng)新中心有限公司共同發(fā)布《具身智能發(fā)展報(bào)告(2024年)》。
報(bào)告致力于厘清具身智能的概念內(nèi)涵、演進(jìn)歷程、技術(shù)體系,通過梳理當(dāng)前具身智能技術(shù)發(fā)展現(xiàn)狀,研判分析具身智能應(yīng)用潛力與帶來的影響,并總結(jié)當(dāng)前產(chǎn)業(yè)應(yīng)用困難與挑戰(zhàn),展望思維智能和行動(dòng)智能有機(jī)融合的無限可能。
報(bào)告核心觀點(diǎn)
1. 具身智能:依靠物理實(shí)體通過與環(huán)境交互來實(shí)現(xiàn)智能增長(zhǎng)的智能系統(tǒng)
當(dāng)前,針對(duì)具身智能各家觀點(diǎn)百花齊放,但都明確了“智能”的核心地位。因此,本報(bào)告從AI視角切入,認(rèn)為具身智能是指通過機(jī)器人等物理實(shí)體與環(huán)境交互,能進(jìn)行環(huán)境感知、信息認(rèn)知、自主決策和采取行動(dòng),并能夠從經(jīng)驗(yàn)反饋中實(shí)現(xiàn)智能增長(zhǎng)和行動(dòng)自適應(yīng)的智能系統(tǒng)。
2. 具身智能與離身智能相互補(bǔ)充、協(xié)作發(fā)展共同促進(jìn)了對(duì)智能的理解、模擬與擴(kuò)展——具身智能時(shí)代有望來臨
結(jié)合人工智能的演進(jìn)歷程,具身智能的發(fā)展大致可以分為三個(gè)階段,即:早期萌芽階段(1950s-1990s),在對(duì)智能的激烈爭(zhēng)論和分立研究中,形成AI三大學(xué)派,尚未形成成熟的智能理論;技術(shù)積累階段(1990s-2022),隨著智能理論的完善、底層數(shù)學(xué)理論的深耕,AI三大學(xué)派從各自突破,逐步走向取長(zhǎng)補(bǔ)短的綜合性研究,為具身智能發(fā)展奠定理論和算法基礎(chǔ);技術(shù)突破階段(2022年至今),以ChatGPT為代表大模型的通用知識(shí)和智能涌現(xiàn)能力為機(jī)器人實(shí)現(xiàn)智能感知、自主決策乃至擬人化交互方面帶來巨大潛力。當(dāng)前人們的關(guān)注點(diǎn)轉(zhuǎn)向如何將AI應(yīng)用于物理世界,并期望通過AI的“具身化”找到新的智能增長(zhǎng)點(diǎn)。
3. 具身智能技術(shù)尚處于多條路徑探索發(fā)展階段,可以類比于自然語言處理領(lǐng)域的“BERT”發(fā)展時(shí)期
具身智能技術(shù)體系可分為“感知—決策—行動(dòng)—反饋”四個(gè)模塊形成一個(gè)閉環(huán),在與環(huán)境的不斷交互中,實(shí)現(xiàn)對(duì)環(huán)境的重構(gòu)映射、自主決策和自適應(yīng)行動(dòng),并從經(jīng)驗(yàn)反饋中不斷學(xué)習(xí)進(jìn)化。
4. 具身智能將在技術(shù)涌現(xiàn)式創(chuàng)新和突破下,實(shí)現(xiàn)“一腦多形”“一機(jī)多用”
具身智能將成為與各行各業(yè)深度融合的創(chuàng)新驅(qū)動(dòng)力,其相關(guān)應(yīng)用有望快速擴(kuò)展至社會(huì)經(jīng)濟(jì)的各個(gè)層面,推動(dòng)著生產(chǎn)力的躍升和生活方式的變革。有望實(shí)現(xiàn)“一腦多形”即讓一個(gè)智能系統(tǒng)適配各種形態(tài)的物理實(shí)體,如智能機(jī)器人、智能車輛等; 將實(shí)現(xiàn)“一機(jī)多用”,即讓一個(gè)機(jī)器設(shè)備可以靈活地執(zhí)行多種任務(wù),適應(yīng)多樣化場(chǎng)景。未來將從工業(yè)協(xié)作生產(chǎn)到柔性制造,從家務(wù)助手到醫(yī)療護(hù)理,從災(zāi)難救援到太空探索,深入融入人類社會(huì)。
5. 具身智能在感知與認(rèn)知、學(xué)習(xí)與泛化、計(jì)算能力、多任務(wù)處理、安全性、隱私保護(hù)以及人機(jī)關(guān)系等多個(gè)方面都面臨著挑戰(zhàn)
算法層面:具身智能系統(tǒng)在實(shí)現(xiàn)通用智能時(shí)面臨兩大根本性挑戰(zhàn)。一是系統(tǒng)需要人類智能的介入,二是尚未實(shí)現(xiàn)感知到行動(dòng)間的認(rèn)知映射。數(shù)據(jù)層面:缺乏數(shù)據(jù)成為具身智能能力突破的重要壁壘。一方面,真實(shí)數(shù)據(jù)面臨獲取成本過高,廣泛、高質(zhì)量和多樣化的挑戰(zhàn)。另一方面仿真合成數(shù)據(jù)面臨“現(xiàn)實(shí)差距”——即模擬環(huán)境與現(xiàn)實(shí)世界之間的差異挑戰(zhàn)。軟件層面:缺乏統(tǒng)一的操作系統(tǒng)和標(biāo)準(zhǔn)化軟件開發(fā)工具鏈。硬件層面:耐用性和能源效率以及與軟件的深度集成需求構(gòu)成了具身智能硬件發(fā)展的主要障礙。標(biāo)準(zhǔn)與合規(guī)層面:具身智能技術(shù)、評(píng)測(cè)、安全倫理等標(biāo)準(zhǔn)缺失,面臨信息安全、個(gè)人隱私等一系列倫理和社會(huì)學(xué)問題。