侵權(quán)投訴
訂閱
糾錯
加入自媒體

百川開源最新醫(yī)療大模型,中國力量領(lǐng)跑醫(yī)療AI賽道

文|白 鴿

編|王一粟

專注醫(yī)療后,百川智能交出第一份答卷!8月11日,百川智能發(fā)布第二款開源醫(yī)療增強推理大模型Baichuan-M2,其以32B的參數(shù)量,在OpenAI的Healthbench評測集上,超越其剛剛發(fā)布5天的開源模型gpt-oss-120b。

除gpt-oss-120b外,Baichuan-M2還領(lǐng)先GPT-5以外所有開源與閉源前沿模型,以更小尺寸模型實現(xiàn)醫(yī)療能力反超,在所有開源模型中登頂世界第一。

同時,在落地應(yīng)用浪潮下,大模型所追求的,不再只是效果好,還要能低成本落地。

尤其是在醫(yī)療健康領(lǐng)域,模型涉及更多敏感隱私信息,醫(yī)療健康機構(gòu)對私有化部署有著強烈的需求,而私有化部署往往意味著高昂的部署成本。

Baichuan-M2的落地門檻則非常低,其支持RTX4090單卡部署,進一步提升了模型在真實醫(yī)療場景中的落地可能性與可擴展性。

這短短5天 “攻防戰(zhàn)”,不僅改寫了全球醫(yī)療大模型的實力排名,更重要的一點在于,在中美通用大模型差距持續(xù)擴大的背景下,中國團隊可以在AI垂直行業(yè)大模型賽道中,實現(xiàn)彎道超車。

當(dāng)前,醫(yī)療是大模型最重要、最有潛力的應(yīng)用領(lǐng)域之一,正在逐漸成為全球共識。不過,作為應(yīng)用底座的醫(yī)療大模型,現(xiàn)階段行業(yè)中并未有特別突出的產(chǎn)品。

即使是OpenAI最新發(fā)布的GPT-5,其數(shù)學(xué)能力滿分,代碼、寫作、知識能力的成績也都很高,但醫(yī)療領(lǐng)域的得分依舊很低。

這也說明,醫(yī)療大模型仍有很長的路要走。

而中美垂直行業(yè)大模型的能力差距并不大,作為中國頭部大模型企業(yè)代表,百川智能此次在醫(yī)療大模型上,已實現(xiàn)與OpenAI的并駕齊驅(qū)。

那么,作為國內(nèi)最早全力押注醫(yī)療AI賽道的大模型創(chuàng)企,百川智能又是如何做到彎道超車的?

力壓全球醫(yī)療大模型,拆解Baichuan-M2硬實力

長期以來,模型在醫(yī)學(xué)考試(如 USMLE)上的表現(xiàn)被視為衡量其醫(yī)療能力的重要指標,但隨著相關(guān)題庫的飽和,這類選擇題或短回復(fù)的評測已難以全面反映模型的真實臨床實用性。

畢竟,醫(yī)療AI并不等于“刷題機器”,考試分數(shù)再高,也未必意味著在真實醫(yī)療場景中好用。

因此,醫(yī)療能力的評測需要有系統(tǒng)化的方法,驗證模型在推理決策、臨床溝通等關(guān)鍵能力上的綜合表現(xiàn)。

今年5月,OpenAI發(fā)布權(quán)威且貼近真實臨床場景的HealthBench醫(yī)療健康評測集。

該測評集包含了5000個廣泛場景覆蓋的醫(yī)患多輪對話,并通過由262個人類醫(yī)生編寫的48562個醫(yī)療評價規(guī)則來對模型能力進行評估,是全球公認的醫(yī)療大模型“能力試金石”。

該數(shù)據(jù)集主要包含2個版本:

HealthBench:標準版本,包含5000條對話和對應(yīng)準則。

HealthBench Hard:包含1000個特別具有挑戰(zhàn)性的案例。

在HealthBench中,Baichuan-M2得到60.1高分,反超OpenAI最新開源模型gpt-oss120b(得分57.6),還力壓Qwen3-235B、Deepseek R1、Kimi K2等當(dāng)前世界所有開源大模型。

同時,Baichuan M2在醫(yī)療對話任務(wù)中展現(xiàn)出顯著優(yōu)勢,如緊急醫(yī)療響應(yīng)、醫(yī)療上下文理解、醫(yī)患溝通能力、全球健康知識覆蓋及醫(yī)學(xué)思維完備性等核心醫(yī)療場景性能全面領(lǐng)先。

HealthBench Hard,是一個針對更復(fù)雜困難場景的數(shù)據(jù)集,用于驗證模型多維度、全景化解決疑難復(fù)雜醫(yī)學(xué)問題的能力。

據(jù)悉,此前該測試集發(fā)布時,世界上所有頂尖模型得分都沒超過32分,許多前沿模型得分甚至為0。

GPT-5發(fā)布時,OpenAI也特別強調(diào),其是HealthBench Hard評測全球唯一超過32分的模型。

但現(xiàn)在Baichuan-M2打破了這一紀錄,其以34.7分成為全球第二款超過32分的模型,力壓世界所有其他頂尖閉源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超過32分的模型。

事實上,盡管HealthBench已收集大量真實醫(yī)療場景,但現(xiàn)實情況往往更加復(fù)雜多樣。

不過,基于其評測,也至少能夠證明在多數(shù)醫(yī)療場景上的問答質(zhì)量,GPT-5和Baichuan-M2已經(jīng)超越資深醫(yī)生,特別是在知識更新速度和全面性上,完全可以給人類醫(yī)生強大支持。

那么,百川智能的Baichuan-M2醫(yī)療大模型,是如何以32B參數(shù),實現(xiàn)以小博大?其核心思路,就是讓大模型像醫(yī)生一樣思考、應(yīng)對真實醫(yī)患場景。

從技術(shù)角度來說,其背后則是百川智能在大型驗證系統(tǒng)(Large Verifier System)、端到端強化學(xué)習(xí)、AI患者模擬器、多類型醫(yī)療數(shù)據(jù)用于深度推理等4個方面的創(chuàng)新探索。

近一年來,大語言模型后訓(xùn)練范式的升級,特別是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大規(guī)模強化學(xué)習(xí)訓(xùn)練,帶來了大模型效果的顯著提升,尤其是在有明確答案的數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域。

但是,強化學(xué)習(xí)在數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域之所以能夠顯著提升模型能力,是因為這些領(lǐng)域的數(shù)據(jù)是靜態(tài)的,由簡潔的問題和答案構(gòu)成。

而醫(yī)療問題卻是復(fù)雜問題,沒有標準答案,同一個癥狀可能存在不同病因,同一病因,患者的體格、病史、用藥史、藥物耐受程度不一樣,治療方案也會不同。

因此,醫(yī)療領(lǐng)域的強化學(xué)習(xí)不僅要驗證診斷結(jié)果、治療方案的準確性,還要驗證大模型的問診對話過程是否符合醫(yī)生思維,是一個動態(tài)驗證的形式,也就導(dǎo)致傳統(tǒng)強化學(xué)習(xí)規(guī)則在醫(yī)療領(lǐng)域表現(xiàn)并不好。

針對這一現(xiàn)狀,百川智能則以構(gòu)建Large Verifier System為核心,在通用Verifier之外,結(jié)合醫(yī)療場景自身特點設(shè)計了一套較為全面的醫(yī)療Verifier系統(tǒng)。

用通俗的話來理解,如果將大模型比作一位醫(yī)學(xué)實習(xí)生,那么這個系統(tǒng)就像是一個要求極高、異常挑剔的醫(yī)療專家。它會從醫(yī)療正確性、完備性、安全性以及對患者的友好性等多個維度,細致地評估模型的輸出,指出其不足并引導(dǎo)模型改正,使其思維方式更貼近專業(yè)醫(yī)生。

但想要讓這個系統(tǒng)成為嚴謹?shù)尼t(yī)療專家,最大的難點在于,人類醫(yī)生在聽取患者描述病情時,很容易分辨患者描述中的邏輯漏洞、從含混不清的表達中辨別出真實病因。現(xiàn)實中患者幾乎無法全面準確表達自己的癥狀,僅基于靜態(tài)的病例、指南等醫(yī)療數(shù)據(jù)訓(xùn)練,模型無法掌握人類醫(yī)生的這一能力。

而為了突破這一瓶頸,百川技術(shù)團隊升級迭代了今年初首創(chuàng)的“AI患者模擬器”。

今年1月,百川在arXiv上發(fā)表AI患者模擬器,用真實數(shù)據(jù)構(gòu)造上萬個不同年齡性別癥狀的AI患者,能夠模擬千差萬別患者的癥狀和表達,特別是包含錯誤噪聲的表達,最大程度還原真實醫(yī)療場景。

7個月后,百川升級患者模擬器并引入模型端到端強化學(xué)習(xí),訓(xùn)練的Baichuan-M2在HealthBench等評測上取得更大突破。

這個模擬器的具體作用就是讓AI在訓(xùn)練時,不斷和這個虛擬病人聊天,而在聊天的過程中,“考官” 會實時根據(jù)聊天情況,動態(tài)調(diào)整打分標準,幫AI練出“隨機應(yīng)變”的能力,即就算病人說的信息亂、不全,也能重新判斷病情,以及會看病人說的信息夠不夠,決定是繼續(xù)問還是直接給結(jié)論。

而為了AI能夠更好的學(xué)習(xí)醫(yī)學(xué)知識,百川智能還采用了多階段強化學(xué)習(xí)策略(Multi- Stage RL),將復(fù)雜的強化學(xué)習(xí)任務(wù)分解為幾個易于管理的、分層的訓(xùn)練階段。

就像學(xué)車要先練直線、再練轉(zhuǎn)彎、最后上馬路,AI學(xué)當(dāng)醫(yī)生也分階段練,先練“醫(yī)學(xué)常識”,再練“和病人聊天的技巧”,最后練“復(fù)雜病例的診斷”,一步步提升,避免一下子學(xué)太難而懵圈。

綜合來看,用“智能考官”判斷AI表現(xiàn),用“真實病例 + 虛擬病人”模擬實戰(zhàn),分階段訓(xùn)練讓AI既懂醫(yī)學(xué)知識,又能靈活應(yīng)對真實醫(yī)患場景,百川智能最終使大模型具備了一個靠譜醫(yī)生的能力。

但在當(dāng)前AI大模型落地應(yīng)用浪潮中,大模型不僅僅要有能力,更重要的還是能落地,尤其是在垂直行業(yè)中,很多時候都面臨著大模型效果是很好,但部署運營成本太高,終成demo的情況。

醫(yī)療大模型落地,既要效果好還要成本低

早在2016年的深度學(xué)習(xí)浪潮中,AI就已經(jīng)開始在醫(yī)療場景落地,但彼時更多是聚焦在語音語義、圖像等方面的應(yīng)用,以及單點功能(病例錄入、智能閱片)的落地。

但這一代醫(yī)療大模型開啟了全新范式,其能力與上一代醫(yī)療AI相比已經(jīng)產(chǎn)生了質(zhì)的飛躍,醫(yī)療大模型不僅僅是醫(yī)學(xué)知識的問答引擎與效率提升的工具,它能夠通過Agent的方式全流程融入到診中、診前、診后的各個環(huán)節(jié),為AI落地醫(yī)療真實場景打開了更廣闊的空間。

百川智能醫(yī)療大模型的迭代和落地正是這一顛覆性變化的側(cè)寫。

在實踐應(yīng)用中,今年2月,以Baichuan-M1為底座的AI兒科醫(yī)生在國家兒科醫(yī)學(xué)中心多學(xué)科會診中大放異彩,獲得會診專家一致認可。M2則在醫(yī)療溝通、診斷合理、檢查合理、醫(yī)療治療、醫(yī)療安全六個維度相較于M1均顯著提升。

這背后最關(guān)鍵的一點在于,Baichuan-M2為了更適配中國醫(yī)療場景,也從中國醫(yī)學(xué)指南對齊、醫(yī)療政策適配和患者需求洞察等多個維度進行了深度優(yōu)化。

在中國臨床診療場景的問題評測中,對比gpt-oss系列模型,Baichuan-M2展現(xiàn)出更明顯的可用性優(yōu)勢,其中部分優(yōu)勢就來源自中國醫(yī)療場景的適配性,例如針對臨床診療的案例,M2更貼合中國醫(yī)療場景,更遵循中國權(quán)威指南推薦。

以某一個真實的肝癌治療案例中,針對CNLC IIa期(BCLC B期)的肝細胞肝癌患者,M2首選推薦在具備手術(shù)條件的情況下進行解剖性肝右葉切除(或根據(jù)腫瘤具體位置,可考慮擴大右半肝切除、右三葉切除等),目標是R0切除。

原因在于,依據(jù)國家衛(wèi)健委發(fā)布的《原發(fā)性肝癌診療指南》(2024版),肝切除術(shù)是潛在根治性治療,可提供最佳的長期生存獲益。

同樣的案例,gpt-oss-120b建議首選治療經(jīng)動脈化療栓塞術(shù)(TACE),理由是符合BCLCB期治療指南,當(dāng)前情況下手術(shù)切除和移植風(fēng)險不理想。

臨床醫(yī)學(xué)專家認為,類似這樣的情況還有很多。

僅就這個案例來說,手術(shù)切除或TACE都是可選方案,只是中西方指南不同,不是醫(yī)學(xué)上的高下之分,而是基于本地患者特點、醫(yī)療資源與當(dāng)前醫(yī)學(xué)發(fā)展水平權(quán)衡之下的最優(yōu)解。

畢竟,醫(yī)療大模型能否將全球醫(yī)學(xué)知識、醫(yī)學(xué)證據(jù)轉(zhuǎn)化為符合本地優(yōu)勢特長的臨床決策,也是為醫(yī)生和患者提供切實服務(wù)能力的關(guān)鍵。

Baichuan-M2則為此所做的專門優(yōu)化,讓中國臨床場景有了專屬的頂尖模型。此外,更為重要的一點在于,Baichuan-M2能夠讓中國萬千醫(yī)療機構(gòu)以更低的成本部署使用。

業(yè)內(nèi)皆知,醫(yī)療大模型落地面臨“兩難”,即追求高精度往往意味著高成本,如閉源模型授權(quán)費、定制化開發(fā)投入,而低成本方案又難以滿足臨床核心需求,尤其是在復(fù)雜場景的推理上。

Baichuan-M2則通過技術(shù)優(yōu)化和開源的方式,降低了醫(yī)療機構(gòu)的部署成本。

百川智能通過多種PTQ量化策略,對Baichuan-M2進行權(quán)重4bit量化,量化后模型精度接近無損,可在RTX4090上單卡部署,相比DeepSeek-R1 H20雙節(jié)點部署方式,成本降低了57倍。

同時,其基于Eagle-3訓(xùn)練了Baichuan-M2-Spec版本,單用戶場景下token吞吐可獲得74.9%的提升。

另外,開源大模型特性是支持二次開發(fā),可根據(jù)具體場景輕量化訓(xùn)練,避免“大而全”的冗余成本,模型權(quán)重、訓(xùn)練代碼全開放,企業(yè)/機構(gòu)無需支付授權(quán)費。

百川M2開源醫(yī)療大模型為中國醫(yī)療AI提供了“低成本突破”的路徑,推動醫(yī)療AI技術(shù)的普惠應(yīng)用。它通過“高精度推理 + 開源低成本”的組合,證明醫(yī)療大模型落地?zé)o需在效果與成本間妥協(xié)。

直面全球差距,中國醫(yī)療AI的突圍之道

今年是AI大模型浪潮興起的第三年,但在全球市場中,中國通用大模型一直處于跟隨者地位。

近期在由谷歌Kaggle推出的首屆全球AI象棋爭霸賽中,一眾中國大模型也表現(xiàn)并不佳,首輪比賽中就被淘汰出局。

我們可以看到,在通用大模型上,中美之間始終存在著差距,無論是在能力上,還是在技術(shù)創(chuàng)新層面,差距也仍在不斷擴大。

但相比較來說,中國更擅長的地方,則在于推動大模型走向落地應(yīng)用,而這也是我們在AI垂直行業(yè)賽道能夠彎道超車的關(guān)鍵。

百川智能作為中國大模型創(chuàng)企之一,選擇醫(yī)療這一“中國有需求、有數(shù)據(jù)優(yōu)勢” 的領(lǐng)域深耕,用反超OpenAI的成績證明 “中國可以在垂直賽道做全球第一”。

而通過開源大模型的模式,也可以降低醫(yī)療AI技術(shù)門檻,讓全球研究者、醫(yī)療機構(gòu)可直接復(fù)用模型,在細分的醫(yī)療領(lǐng)域構(gòu)建出自己的專屬模型,加速醫(yī)療AI的落地與創(chuàng)新。

此次發(fā)布會后,M2模型將進入全面落地期,百川將與國家兒童醫(yī)學(xué)中心、北京大學(xué)第三醫(yī)院、海淀衛(wèi)健委等探索AI+醫(yī)療的深度應(yīng)用,真正推動AI醫(yī)療從 “實驗室” 走向 “臨床一線”。未來,隨著模型的落地,將為基層醫(yī)療、疾病診斷等場景帶來革新,推動“AI醫(yī)療惠及全民”。

       原文標題 : 百川開源最新醫(yī)療大模型,中國力量領(lǐng)跑醫(yī)療AI賽道

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號