從上海人工智能實(shí)驗(yàn)室獲悉,其書(shū)生大模型今日獲得重要版本升級(jí) —— 書(shū)生 浦語(yǔ) 3.0(InternLM3)。據(jù)官方介紹,其通過(guò)精煉數(shù)據(jù)框架大幅提升了數(shù)據(jù)效率,實(shí)現(xiàn)思維密度的躍升。
InternLM3-8B-Instruct 僅使用 4T 數(shù)據(jù)訓(xùn)練,官方宣稱其綜合性能超過(guò)同量級(jí)開(kāi)源模型,節(jié)約超 75% 訓(xùn)練成本;首次在通用模型中實(shí)現(xiàn)了常規(guī)對(duì)話與深度思考能力融合,可應(yīng)對(duì)更多真實(shí)使用場(chǎng)景。
基于司南 OpenCompass 開(kāi)源評(píng)測(cè)框架,該模型研究團(tuán)隊(duì)使用統(tǒng)一可復(fù)現(xiàn)的方法對(duì)該模型進(jìn)行評(píng)測(cè)。評(píng)測(cè)采用 CMMLU、GPQA 等十多個(gè)權(quán)威評(píng)測(cè)集,維度包括推理、數(shù)學(xué)、編程、指令跟隨、長(zhǎng)文本、對(duì)話及綜合表現(xiàn)等多方面性能,結(jié)果顯示,書(shū)生 浦語(yǔ) 3.0 在大多數(shù)評(píng)測(cè)集得分領(lǐng)先,綜合性能“十分接近 GPT-4o-mini”。
上海 AI 實(shí)驗(yàn)室披露了部分該模型的體驗(yàn)案例,如解答“箭頭迷宮問(wèn)題”等推理謎題,讓模型在棋盤格中找到從起點(diǎn)到終點(diǎn)的可行路徑。
以及“猜數(shù)字”問(wèn)題:
此外,其深度思考能力也拓展到了智能體任務(wù),成為了開(kāi)源社區(qū)內(nèi)首個(gè)支持瀏覽器使用的通用對(duì)話模型,支持 20 步以上網(wǎng)頁(yè)跳轉(zhuǎn)以完成深度信息挖掘。
體驗(yàn)頁(yè)面:https://internlm-chat.intern-ai.org.cn
GitHub鏈接:https://github.com/InternLM/InternLM
HuggingFace鏈接:https://huggingface.co/internlm
ModelScope鏈接:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm3-8b-instruct