飛象原創(chuàng)(魏德齡/文)時(shí)至2025年,當(dāng)生成式AI已經(jīng)爆發(fā)兩年有余,本地AI模型的部署本已不是什么新鮮事。但隨著Deepseek R1的發(fā)布,除了線(xiàn)上被擠爆的服務(wù)器外,短短一周左右時(shí)間,論壇、博客、視頻站點(diǎn)上涌現(xiàn)出的各種新蒸餾模型與部署教程,吸引著很多普通用戶(hù)將一個(gè)容量?jī)H幾個(gè)G的3B-13B不等參數(shù)量的小模型部署到本地設(shè)備中,成為在PC或手機(jī)中的新助手。
本地AI模型部署所呈現(xiàn)的“用腳投票”現(xiàn)象,背后則是硬實(shí)力的呈現(xiàn)。
蒸餾模型涌現(xiàn)的背后硬實(shí)力
蒸餾模型的涌現(xiàn)與小模型的實(shí)用性大大提升有關(guān),很多部署教程中,還會(huì)向觀眾進(jìn)行相關(guān)功能實(shí)用性的驗(yàn)證,例如文檔的閱讀總結(jié)、簡(jiǎn)單編程、圖文內(nèi)容的分析等,來(lái)證明端側(cè)AI模型部署已經(jīng)不僅僅是極客們一時(shí)興起的玩物。
高通技術(shù)公司高級(jí)副總裁兼技術(shù)規(guī)劃和邊緣解決方案業(yè)務(wù)總經(jīng)理馬德嘉給出的這張PPT,做出了一個(gè)很好的例證,使用DeepSeek蒸餾后的Qwen-7B模型,已經(jīng)能夠在性能上與去年所推出的且當(dāng)時(shí)最為先進(jìn)的GPT-4o云端模型持平。但兩個(gè)模型的參數(shù)規(guī)模卻相差甚多。另對(duì)比蒸餾后的Llama 700億模型在推理、編程、數(shù)學(xué)、數(shù)據(jù)分析等方面表現(xiàn)來(lái)看,同樣已經(jīng)超越了原始模型,只在語(yǔ)言理解和指令遵循方面有待進(jìn)一步優(yōu)化。
根據(jù)《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》論文中的觀點(diǎn)顯示,通過(guò)蒸餾技術(shù)能夠使小模型也擁有大模型的推理能力,并且既高效又經(jīng)濟(jì)。實(shí)驗(yàn)結(jié)果表明,蒸餾后的小模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024基準(zhǔn)測(cè)試中取得了55.5%的成績(jī),超越了QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B同樣在多個(gè)測(cè)試中表現(xiàn)優(yōu)異,AIME 2024、MATH-500、LiveCodeBench的測(cè)試結(jié)果超越了以往開(kāi)源模型,與OpenAI o1-mini相當(dāng)。
蒸餾技術(shù)能夠讓大模型“教學(xué)”小模型,保持準(zhǔn)確性的同時(shí)遷移知識(shí),在這一老師教授學(xué)生的過(guò)程中,起到了所謂“聽(tīng)君一席話(huà),勝讀十年書(shū)”的效果,從而讓小模型實(shí)現(xiàn)更多全新的功能與性能。對(duì)于開(kāi)發(fā)者而言,如今在非常多高質(zhì)量的小模型和蒸餾技術(shù)的加持下,將大大推動(dòng)AI模型數(shù)量的激增,實(shí)現(xiàn)更多AI商業(yè)應(yīng)用的規(guī);瘮U(kuò)展。尤其是在終端側(cè),目前大有“當(dāng)機(jī)會(huì)來(lái)臨,已經(jīng)準(zhǔn)備好了”的態(tài)勢(shì)。
端側(cè)AI準(zhǔn)備好了
在終端本地能否運(yùn)行小模型,并保證流暢體驗(yàn),要看當(dāng)前的硬件能否滿(mǎn)足要求。相比正在彌補(bǔ)短板的iOS來(lái)說(shuō),Android陣營(yíng)無(wú)疑走在了前列。例如,早在MWC24期間,高通就展示了全球首個(gè)在Android智能手機(jī)上運(yùn)行的大型多模態(tài)語(yǔ)言模型,該LMM擁有超過(guò)70億參數(shù),可接受包括文本和圖像在內(nèi)的多種類(lèi)型的數(shù)據(jù)輸入,并能夠與AI助手生成關(guān)于圖像的多輪對(duì)話(huà)。
“對(duì)于高通來(lái)講,我們預(yù)判了終端側(cè)模型的爆發(fā),同時(shí)也推動(dòng)了邊緣AI推理在跨終端設(shè)備上的落地!瘪R德嘉表示。
根據(jù)最新發(fā)布的《AI變革正在推動(dòng)終端側(cè)推理創(chuàng)新》白皮書(shū)中寫(xiě)到,高通的SoC能夠直接在終端側(cè)提供高性能、高能效的AI推理。通過(guò)緊密集成這些核心組件,高通技術(shù)公司的平臺(tái)可在保持電池續(xù)航和整體能效表現(xiàn)的同時(shí)處理復(fù)雜AI任務(wù),這對(duì)邊緣側(cè)用例至關(guān)重要。
高通還在去年MWC24期間推出了AI Hub,能夠幫助開(kāi)發(fā)者選擇相應(yīng)平臺(tái)和開(kāi)發(fā)模型、編寫(xiě)應(yīng)用,最后在不同類(lèi)型的移動(dòng)終端上進(jìn)行部署,目前已有超過(guò)1500家企業(yè)在使用,其中包括海量的模型廠商,比如Meta、Allam、OpenAI、Tech Mahindra、IBM、Mistral、G42等。據(jù)馬德嘉介紹,現(xiàn)在AI Hub不僅提供已有的模型,還能允許開(kāi)發(fā)者將自己的模型引入其中,或直接通過(guò)AI Hub用數(shù)據(jù)來(lái)搭建模型,并在云端設(shè)備中實(shí)時(shí)運(yùn)行。
由于以手機(jī)、筆記本為代表的移動(dòng)設(shè)備一般不會(huì)標(biāo)配超大的RAM,能否滿(mǎn)足端側(cè)AI運(yùn)行所需也成了關(guān)注的問(wèn)題。而蒸餾技術(shù)已經(jīng)讓模型的參數(shù)規(guī)模已經(jīng)不再是衡量模型質(zhì)量的重要指標(biāo),進(jìn)而降低了端側(cè)RAM的壓力。
“我認(rèn)為隨著模型規(guī)模不斷地下降,日后10-20億參數(shù)規(guī)模的模型將會(huì)占用更少的運(yùn)行內(nèi)存,更好地適配8-12GB內(nèi)存設(shè)置的終端!瘪R德嘉在回答上述問(wèn)題時(shí)表示,現(xiàn)在旗艦智能手機(jī)運(yùn)行內(nèi)存配置一般在12GB或以上,已經(jīng)足夠支持很多模型的高效運(yùn)行。同時(shí),高通在處理模型終端側(cè)運(yùn)行的內(nèi)存方面也有著豐富的技術(shù)經(jīng)驗(yàn)。
以正在舉行的MWC25現(xiàn)場(chǎng)的高通展臺(tái)為例,iQOO、努比亞、OPPO、榮耀、小米和一加等中國(guó)生態(tài)伙伴,均帶來(lái)了基于驍龍平臺(tái)的終端側(cè)生成式AI和智能體AI的最新應(yīng)用成果。三星也在Galaxy S25 Ultra上展示谷歌全新AI助手Gemini。
《AI變革正在推動(dòng)終端側(cè)推理創(chuàng)新》白皮書(shū)顯示,不僅僅是手機(jī),高通正在擴(kuò)展終端側(cè)AI覆蓋所有關(guān)鍵邊緣細(xì)分領(lǐng)域,還包括PC、汽車(chē)、工業(yè)物聯(lián)網(wǎng)、網(wǎng)絡(luò),賦能眾多行業(yè)、釋放商業(yè)價(jià)值并支持全新用戶(hù)體驗(yàn)。
在這一過(guò)程中,AI將不僅僅是用戶(hù)本地的一個(gè)能夠快速響應(yīng)又保證隱私安全的助手,更將帶來(lái)新一輪的交互變革。
AI是新的UI
“隨著終端側(cè)可以運(yùn)行越來(lái)越多高質(zhì)量的AI模型,越來(lái)越多的AI應(yīng)用和用例開(kāi)始涌現(xiàn)。AI正在重新定義所有終端的用戶(hù)界面,這也意味著,AI正在成為終端側(cè)新的UI。”馬德嘉專(zhuān)門(mén)強(qiáng)調(diào)了這一論點(diǎn)。
回首過(guò)往,智能手機(jī)的每一次重要迭代所伴隨的也是交互方式的變革,從能發(fā)電子郵件的全鍵盤(pán)手機(jī),再到能夠?qū)崿F(xiàn)移動(dòng)計(jì)算的電容屏手機(jī),當(dāng)業(yè)界開(kāi)始思考智能手機(jī)的下一步將走向何方,AI恰恰給予了改變手機(jī)交互方式的全新契機(jī)。
《AI變革正在推動(dòng)終端側(cè)推理創(chuàng)新》白皮書(shū)表示,智能體AI(Agentic AI)是下一代用戶(hù)交互的核心。AI系統(tǒng)能夠通過(guò)預(yù)測(cè)用戶(hù)需求,并在終端和應(yīng)用內(nèi)主動(dòng)執(zhí)行復(fù)雜工作流,進(jìn)行決策和管理任務(wù)。
屆時(shí),用戶(hù)輸入進(jìn)手機(jī)的語(yǔ)音和音頻、文本、圖像、視頻和傳感器等數(shù)據(jù),將不直接應(yīng)用于某個(gè)具體的應(yīng)用,而是先傳輸至智能體AI。智能體AI在接收到這些信息后,會(huì)對(duì)其進(jìn)行相應(yīng)的處理,之后再將工作負(fù)載分配給后臺(tái)的不同應(yīng)用。在這背后,智能體AI要做的就是從終端側(cè)豐富的模型中選擇所需的模型完成任務(wù)。
“也就是說(shuō),所有這些處理任務(wù)都是由AI智能體直接完成的,應(yīng)用只會(huì)在后臺(tái)運(yùn)行,用戶(hù)是看不到的!瘪R德嘉表示,對(duì)于終端用戶(hù)來(lái)講,AI智能體就是唯一在前端與他們交互的UI,而所有實(shí)際應(yīng)用的處理都是在后臺(tái)完成的。最終個(gè)性化的多模態(tài)AI智能體將通過(guò)自然語(yǔ)言和基于圖像、視頻與手勢(shì)的交互簡(jiǎn)化人們使用技術(shù)的方式,高效地跨越各種應(yīng)用完成任務(wù)。
Deepseek蒸餾模型涌現(xiàn)的背后是終端側(cè)AI所迎來(lái)的全新機(jī)遇,使用戶(hù)在本地也能獲得媲美甚至超越云端的生成式AI能力,這種能力還正逐步演變?yōu)槿碌慕换シ绞,讓用?hù)能夠更加自然地與設(shè)備溝通,引領(lǐng)智能終端邁向下一場(chǎng)變革。