2024年大模型被焦慮裹挾,不再飛躍的技術、快要耗盡的數據、尚未出現的超級應用……給這一年留下了遺憾,也為2025年大模型的發(fā)展定了調。
ChatGPT面世至今,大廠和創(chuàng)業(yè)公司高強度競爭三年,差異化打法逐漸形成,談參數的越來越少,聚焦變現的越來越多,一個可對標甚至超越移動互聯網繁榮的大模型收獲季被期待。這場追逐中,更適應市場的服務商和產品正在出現,實實在在的數據是參考:1—9月,國內原生AIGC(人工智能生成內容)App月活規(guī)模從3303萬漲到7913萬。
視頻必爭
斑駁的星球表面,升騰的飛船蒸汽,導演葉錦添的AIGC作品《快遞員》講述了外星快遞員Lili的一次冒險。在導演李少紅的AI短片《花滿渚》中,太平公主、秀禾等經典女性角色被AI技術串聯。2024年最后一個月,國內九位導演把AI視頻類型從科幻類型擴展到親情、動畫等更多方向。
年初到年末,視頻模型的風將大廠和創(chuàng)業(yè)公司都拉進這個賽道,字節(jié)跳動、生數科技、快手先發(fā)制人,全年幾乎每個月都有視頻大模型的新動作曝光。最新消息是快手的可靈AI更新至1.6版本,累計生成超6500萬個視頻和超1.75億張圖片,騰訊混元大模型視頻生成功能“姍姍來遲”,字節(jié)跳動的豆包視頻生成模型將于2025年1月正式對外開放服務。
事實是,“還是會‘無中生有’”,“主體一致性問題讓人頭大”,不是每個人都能熟練掌握視頻大模型。
“視頻生成的門檻還是挺高的,文生視頻的成功率不高,圖生視頻更主流!彬v訊混元多模態(tài)生成技術負責人凱撒告訴北京商報記者。
在和新壹科技副總裁毛木子交流時,他也表示,“目前視頻生成模型市場仍處于起步階段,技術和應用在不斷探索和完善中,市場參與者相對有限,產品迭代速度自然不如成熟市場快。從用戶體驗視角看,雖然視頻生成模型迭代升級幅度可能不算大,但用戶對于高質量、個性化視頻內容的需求卻不斷增長,這進一步增加了視頻生成模型的技術難度和研發(fā)成本”。
面對一個新工具,使用者都要經歷一段學習期,本就具有視頻制作功底的人知道“釘子”在哪里,只需要與“錘子”磨合,于是博納影業(yè)(6.450, -0.21, -3.15%)與抖音合作推出AI科幻短劇《三星堆:未來啟示錄》,快手推出AI奇幻短劇《山海奇鏡之劈波斬浪》。
質量的提升是顯而易見的,北京師范大學藝術與傳媒學院講師王廷軒在線下分享“2024大學生AI藝術季”內容時向北京商報記者透露,“在影像品質上AI作品基本會在一個水平線上;诨镜膶徝溃珹I可以讓一個相對業(yè)余的人只經過一些簡單的訓練,作品就超過以往”。
對于2025年,毛木子的判斷是,“視頻生成賽道會更加注重內容真實性和連貫性,以及個性化需求的滿足,在應用場景上也將不斷拓展,廣告制作、影視創(chuàng)作到企業(yè)宣傳等領域都將受益于此。企業(yè)也會通過提供API接口、定制化服務等方式,將視頻生成技術應用于更多場景中,實現盈利增長”。
“數據墻”待解
和文生圖、文生文相比,視頻生成模型需要處理的信息量更多,這是技術突破難點。在整個大模型賽道,圍繞信息和數據要解決的問題,也絕對算得上是熱門話題。
“2024年,全球訓練大語言模型的效果普遍不及預期,可能已經撞上‘數據墻’!睘榱俗C明這個結論,中國信通院云計算與大數據研究所所長何寶宏拿OpenAI、Anthroipc等舉例,甚至直言大模型競賽的上半場已經進入“垃圾時間”。
一個普遍的共識是過去30年來互聯網上積累的數據,將在未來3—5年內被AI耗盡。“行業(yè)要‘卷’合成數據,也需要謹慎!焙螌毢暾f。
談到Scaling Law(規(guī)模定律)放緩時,創(chuàng)新工場CEO李開復,獵豹移動董事長兼CEO、獵戶星空董事長傅盛,月之暗面創(chuàng)始人楊植麟等都提到了數據。
“當Scale(規(guī)模)差不多時,更多算力可能并不一定能直接解決問題,核心是高質量的數據沒那么多了!睏钪谗胝f。李開復發(fā)問,“當人類寫的文字全部用于模型訓練后,人類一年還能寫多少字?用合成數據、多模態(tài)數據都是可嘗試的方向,但這些數據的價值仍然不如原始的高質量文本數據”。傅盛直接捅破窗戶紙,“大模型行業(yè)競爭,真正的競爭壁壘來自于數據”。
企業(yè)已經在行動,7月騰訊推出了一個名為Persona Hub的合成數據生成器,螞蟻在11月上線AI數據合成與生產平臺AIGD,通過大規(guī)模合成互聯網所不覆蓋的高質量、高價值垂直語料數據,幫助科技廠商進行AI模型訓練。
但多個問題擺在眼前,確保這些AI生成數據的準確性和無偏性是一個關鍵挑戰(zhàn),合成數據會否破壞AI模型?到底多少合成數據才算過量?需要時間給出答案。
獵豹移動切入數據的角度不太一樣,獵戶星空首席科學家韓堃告訴北京商報記者,“合成數據確實是一個很重要的補充,但僅僅使用合成數據肯定是不夠的”。獵豹移動將重點放在大模型數據服務上,比如數據收集、清洗、標準、提示詞工程及評估等服務。它們也有靠經驗才能得到的答案,比如人工和機器處理數據的比例。
應用大爆發(fā)
不管是合成還是服務,從另一個角度看,大模型公司正在告別同質化競爭,分散尋找價值洼地。
大模型“六小虎”(包括零一萬物、百川智能等六家獨立大模型初創(chuàng)公司)的行動很快!拔蚁朐龠^三年,六小虎中有些可能已經變成‘龍’,有些變成‘狼’,有些變成‘兔子’了。”李開復預測,“相信六小虎都會找到務實的、獨特的、有價值的方向。大廠有必須要做的事情,我們不應該用大廠的模式跟它們競爭,要找到自己擅長的方向,做得比它們好,做大廠不會馬上會做的事情。”他指的就是大模型的落地應用。
和之前幾次互聯網風口相比,差異化來得似乎更早一些,方向也更多元。百川智能創(chuàng)始人王小川的愿望是,“用AI大模型造醫(yī)生”;零一萬物的解決方案當下主要面向電商直播、辦公會議等場景;智譜B端的中標項目讓人羨慕……
創(chuàng)業(yè)公司希望避開大廠的射程,大廠則在想辦法既靈活又厚實。12月中下旬,阿里旗下的AI應用“通義”被曝將正式從阿里云分拆,并入阿里智能信息事業(yè)群;通義to C方向的產品經理以及相關的工程團隊,一并調整至阿里智能信息事業(yè)群。調整后,通義PC及App團隊與智能搜索產品“夸克”平級,原有的通義實驗室仍留在阿里云體系內。
雖然阿里集團和阿里云就此均未回應,但沖刺的信號不言而喻。
百度更不用說,創(chuàng)始人李彥宏早就喊出:智能體是AI應用的最主流形式,即將迎來爆發(fā)點;百度不是要推出一個“超級應用”,是要幫助更多人更多企業(yè)打造出數百萬“超級有用”的應用。預計到2028年,中國AI Agent(智能體)市場規(guī)模將激增至8520億元,年復合增長率達72.7%,銀河證券的預測只是佐證之一。
不久前,全國工業(yè)和信息化工作會議強調,2025年要加強通用大模型和行業(yè)大模型研發(fā)布局和重點場景應用?梢灶A見,中國科技公司擅長的應用大戰(zhàn)蓄勢待發(fā)。