
大模型在高可靠性要求場景如何實現(xiàn)產(chǎn)業(yè)落地?
文|徐鑫
編|任曉漁
大模型浪潮席卷大眾生活已經(jīng)兩年多,當(dāng)下,這一領(lǐng)域大眾預(yù)期和產(chǎn)業(yè)落地之間正呈現(xiàn)出微妙落差。
大眾感知層面,模型的能力以周為單位快速更新迭代,各種評測指標(biāo)及榜單上模型能力正在各類任務(wù)上超越人類。但到產(chǎn)業(yè)端卻是另一番圖景。在工業(yè)制造、醫(yī)療健康、金融等諸多場景,許多業(yè)界人士都提到,大模型還在單點應(yīng)用階段,大規(guī)模鋪開仍有距離,ToB大爆款應(yīng)用更是稀缺。
落差的根源在于,專業(yè)場景對大模型可靠性要求極高,遠超通用模型當(dāng)下能力表現(xiàn)。有人將這個情形解釋為,學(xué)通識教育的優(yōu)秀本科生當(dāng)不了臨床醫(yī)生。
為了確保專業(yè)領(lǐng)域的準(zhǔn)確性,業(yè)界已有不少動作如微調(diào)、檢索增強、知識庫等,但產(chǎn)業(yè)界仍普遍感覺大模型可信應(yīng)用有待破局。
7月27日在WAIC“從通用智力到專業(yè)生產(chǎn)力:高階程序引領(lǐng)的AI應(yīng)用新范式”論壇上,螞蟻集團旗下螞蟻密算提出了一個新的解決思路——基于高階程序(High-Order Program)的大模型可信應(yīng)用技術(shù)框架,汲取人類智能來解決高可靠要求場景的經(jīng)驗,用專家經(jīng)驗、領(lǐng)域知識和多重核驗,從工程化層面來確保執(zhí)行準(zhǔn)確性。
論壇上螞蟻密算還宣布正式將這一技術(shù)框架對外開源,推動大模型在行業(yè)的可信應(yīng)用進程。

螞蟻集團副總裁、螞蟻密算董事長韋韜用新能源車來比喻今天的大模型產(chǎn)業(yè)應(yīng)用。大模型相當(dāng)于新能源車的電機系統(tǒng),是通用的智力引擎。而整個可靠性保障其實要靠電控部分。
“之前不可靠大家怪發(fā)動機。我們覺得高階程序是很好的控制體系,能有效承擔(dān)行業(yè)AI應(yīng)用電控部分的智能。電池部分是數(shù)據(jù)。未來行業(yè)AI應(yīng)用,核心就是數(shù)據(jù)、智能模型和高階程序,支撐起整個行業(yè)AI變革。”
01
大模型產(chǎn)業(yè)級應(yīng)用,卡在“最后一公里”
玩過圖片生成類應(yīng)用的人,肯定見過AI鬧出的烏龍。生成的畫面看起來像模像樣,但仔細(xì)一看,總會出現(xiàn)諸如人物左手手指多了一根,右手關(guān)節(jié)不自然扭曲,圖片里的文字和字母總像鬼畫符等問題。
過去兩年模型持續(xù)迭代下,這些問題已經(jīng)有了極大改善。比如生成字母和文字,現(xiàn)在模型表現(xiàn)已經(jīng)基本能做到不出太大問題。但偶爾AI生成的圖片還是會冷不丁冒出些瑕疵。
內(nèi)容生成領(lǐng)域同樣是重災(zāi)區(qū)。輸入提示詞讓AI幫忙生成一篇文章,有時候AI給出的結(jié)果洋洋灑灑上千字,仔細(xì)一看參考文獻和關(guān)鍵數(shù)據(jù)卻都是AI編的。
大眾通用場景的問題容錯率較高,上述問題尚且無傷大雅。在工業(yè)制造、醫(yī)療、金融等關(guān)乎生命安全以及涉及到真金白銀資金安全的場景,產(chǎn)業(yè)界對AI的準(zhǔn)確度有更高期待,模型的可靠性不足問題可能正成為產(chǎn)業(yè)應(yīng)用的攔路虎。
IDC在一份報告中就提到,基于300余家企業(yè)的問卷顯示,87%的企業(yè)認(rèn)為現(xiàn)有模型精度無法滿足業(yè)務(wù)落地要求,無法衡量具體效果。具體表現(xiàn)在涉及用戶信息、面向生產(chǎn)和決策的任務(wù)中,對模型的邏輯推理、任務(wù)執(zhí)行要求更高。
一位工業(yè)AI服務(wù)商則告訴數(shù)智前線,工業(yè)生產(chǎn)控制場景對模型的安全性、精準(zhǔn)性、時效性、泛化能力有極高要求。比如化工行業(yè),鍋爐或者反應(yīng)池經(jīng)常有高溫、高壓、易燃、易爆特性,同時反應(yīng)過程復(fù)雜,流程環(huán)節(jié)多,一旦AI的結(jié)果不準(zhǔn)確,可能就會干擾和影響工業(yè)領(lǐng)域的正常生產(chǎn)運轉(zhuǎn),嚴(yán)重的情況還會引發(fā)安全事故。
這位AI服務(wù)商提到,這也使得行業(yè)里AI落地進展相比許多通用領(lǐng)域要來得更為滯后。
而醫(yī)療領(lǐng)域也是同樣,由于大語言模型的推理過程是算法“黑盒”,醫(yī)療大模型在實際應(yīng)用中通常面臨可解釋性和可靠性等問題。
業(yè)界認(rèn)為,大模型應(yīng)用遭遇的可靠性不足,可能有兩個層面原因。
一方面,它與大模型固有的幻覺有關(guān)。當(dāng)信息不完整或者存在矛盾時,大模型會通過“補全邏輯”生成看似合理的解釋。同時,目前前沿研究顯示,幻覺問題并未隨著模型規(guī)模的擴大和技術(shù)的迭代進步而徹底根治。今年4月OpenAI就在一份報告中指出,在需要總結(jié)關(guān)于人物的事實時,o3和o4-mini模型分別有33%和48%的時間產(chǎn)生錯誤信息,而其早期o1模型的幻覺率只有16%。
另外,模型對用戶輸入指令的遵循存在一定不確定性,尤其在復(fù)雜任務(wù)、多步驟推理或約束嚴(yán)格的業(yè)務(wù)場景下,模型出現(xiàn)指令誤解、覆蓋、遺漏等情況問題更為突出。今年6月蘋果在其機器學(xué)習(xí)研究網(wǎng)站上發(fā)表的研究就顯示,推理模型會在任務(wù)超過臨界閾值時,推理完全崩潰。
在WAIC“從通用智力到專業(yè)生產(chǎn)力:高階程序引領(lǐng)的AI應(yīng)用新范式”論壇上,一眾專家和與會行業(yè)人士探討大模型在產(chǎn)業(yè)端可信應(yīng)用的解法時認(rèn)為,解決的路徑可能不只在模型端。

浙江大學(xué)教授、區(qū)塊鏈與數(shù)據(jù)安全全國重點實驗室主任陳純就認(rèn)為,幻覺并非要被“趕盡殺絕”的負(fù)面元素,這與大眾認(rèn)知存在一定出入。
陳純稱,模型的幻覺,恰恰是人工智能系統(tǒng)智能水平發(fā)展到一定高度的產(chǎn)物。若消除所有幻覺,大模型將退化為機械的檢索工具。韋韜則以元素周期表和苯環(huán)結(jié)構(gòu)發(fā)現(xiàn)為例,認(rèn)為人類智能里非邏輯性跳躍的思維方式與幻覺類似,但它曾經(jīng)顯著推進了人類文明的進程。
如果幻覺不應(yīng)成為產(chǎn)業(yè)端應(yīng)用的問題,大模型在高準(zhǔn)確度場景里規(guī)模應(yīng)用解法在哪?陳純認(rèn)為,可靠性的突破不在于消滅“智力特征”,而在于構(gòu)建工程化保障框架。
韋韜也指出,“現(xiàn)在有一些不太好的思潮,把智能化和工程化對立了,任務(wù)解決問題的思路沒有放在模型端,就顯得沒那么智能。”韋韜認(rèn)為,應(yīng)該借鑒人類智能的經(jīng)驗,以智能化疊加工程化,確保在高可靠性要求場景里的大模型可信應(yīng)用。
02
HOP,用工程化確保大模型可信應(yīng)用
在大模型可信應(yīng)用應(yīng)采取智能化和工程化疊加的理念驅(qū)動下,螞蟻密算也展開了大模型可信應(yīng)用的系列探索。
在WAIC上,螞蟻密算公布并開源了正在探索的方向——HOP大模型可信應(yīng)用技術(shù)框架,這是確保大模型在高可靠性要求場景落地應(yīng)用一種新思路。

韋韜介紹,人類在處理復(fù)雜任務(wù)時也會犯錯,而很多專業(yè)領(lǐng)域?qū)φ_性有嚴(yán)格的要求,比如民航、醫(yī)院、建筑公司、生產(chǎn)線等場景都對故障都有著極低的容忍度。
為了解決可靠性問題,人們在這些場景里的典型做法是采取標(biāo)準(zhǔn)作業(yè)程序(SOP),將生產(chǎn)或工作中的操作流程、作業(yè)方法、工具使用、時間安排等要素進行系統(tǒng)化、規(guī)范化,形成一套可重復(fù)、可量化、可優(yōu)化的操作標(biāo)準(zhǔn),并通過核驗和測試檢驗來確保最終執(zhí)行的準(zhǔn)確可靠。
這種方案能讓每個人都以標(biāo)準(zhǔn)方式行動,最大程度地減小錯誤風(fēng)險和增加錯誤檢測幾率。而HOP也汲取了這一思路,用分解、核驗和實測三步,從工程化層面來確保模型執(zhí)行結(jié)果的可靠性。

WAIC螞蟻密算展臺。
所謂的HOP,高階程序語言(High-Order Program),是編程語言和自然語言的融合,集兩者之長,又規(guī)避了兩種語言的缺陷。比如,自然語言有豐富的詞匯和多樣的語法結(jié)構(gòu),但它的開放性可能帶來了歧義和模糊性。而編程語言是形式化的、精確的語言但使用門檻高。
HOP在處理邏輯部分用編程語言來表達,在涉及知識、語義的模糊、動態(tài)匹配時,則靠自然語言完成。“本質(zhì)上,HOP是把大模型當(dāng)成CPU來執(zhí)行編程語言,相比傳統(tǒng)編程語言,因為大模型智能度很高,它又可以處理概念性工作。”韋韜告訴數(shù)智前線。
具體來說,基于HOP到大模型可信應(yīng)用框架,主要依靠三個核心組件來完成可靠性保障。
第一環(huán)節(jié)是業(yè)務(wù)邏輯的程序化表達,可以類比為人類處理復(fù)雜需求時的任務(wù)分拆。
這個過程像SOP一樣將領(lǐng)域內(nèi)的最佳實踐拆解,并進行程序化構(gòu)建。程序化語言可避免自然語言帶來的歧義與模糊性,同時復(fù)雜業(yè)務(wù)邏輯被分拆到可核驗的顆粒度,能支撐后繼的高效核驗。同時這種程序化語言也像編程語言類似,有大規(guī)?蓴U展能力,能為未來應(yīng)用變動留下靈活空間。
第二個環(huán)節(jié)是構(gòu)建場景知識圖譜。目前行業(yè)內(nèi)已有共識,要確保大模型能在垂直領(lǐng)域有99%以上的可靠性,需要的不止是通用語料和行業(yè)語料集,還有場景內(nèi)的專家專業(yè)知識沉淀。而領(lǐng)域知識圖譜成了相關(guān)領(lǐng)域各類最佳實踐的載體。
在這個環(huán)節(jié),自然語言的角色也會加入進來,與領(lǐng)域知識圖譜一起,支持HOP執(zhí)行時大模型所需的模糊概念的匹配推導(dǎo)。
第三環(huán)節(jié),是受控工具鏈。就像人類通過反復(fù)檢查核驗來防止出錯一樣,在大模型去執(zhí)行行業(yè)場景任務(wù)時,HOP執(zhí)行框架也有核驗的過程。
同時,由于在任務(wù)拆解環(huán)節(jié)已經(jīng)確保了顆粒度,執(zhí)行應(yīng)用時可以把需要檢查的維度內(nèi)嵌進去,這使得整個流程里核驗機制貫穿始終。而經(jīng)過HOP核驗之后,就能確保大模型在專業(yè)場景應(yīng)用的可靠性。
韋韜介紹,一個完整的形式化的核驗框架,對大模型的能力表現(xiàn)提升至關(guān)重要。比如現(xiàn)在大模型在解數(shù)學(xué)題上的表現(xiàn)特別好,本質(zhì)是因為數(shù)學(xué)家們已經(jīng)完成很好的形式化核驗框架。“只要大模型的證明能通過核驗,就能保證結(jié)果是對的。那大模型可以不斷換方向去試,總能試對”。
上述三個環(huán)節(jié),使得HOP既能承載垂直領(lǐng)域的關(guān)鍵知識和實踐,又能通過標(biāo)準(zhǔn)作業(yè)程序(SOP)和檢查清單等機制確保大模型實現(xiàn)專業(yè)應(yīng)用的可靠性,還能基于知識概念匹配完成專業(yè)知識與場景應(yīng)用時的適配。
韋韜告訴數(shù)智前線,高階程序與大模型有很強的互補性。HOP是行業(yè)SOP的沉淀,是行業(yè)正確性和可靠性的保障,可以優(yōu)化迭代再驗證后使用。同時,大模型的更新又對HOP有幫助,能讓HOP迭代優(yōu)化的成本顯著降低,以前需要人去作業(yè)的任務(wù),隨著模型智能程度提升,帶來巨大的成本優(yōu)化。
03
推進大模型行業(yè)應(yīng)用變革
過去兩年,圍繞著大模型可靠性和可落地性,行業(yè)應(yīng)用方展開過一系列探索,包括但不限于提示詞工程、微調(diào)以及基于知識庫的RAG等。
比如微調(diào),此前就被視作行業(yè)落地時必要的一步,用來完成場景內(nèi)的模型能力適配。“之前但凡一個模型在行業(yè)應(yīng)用有問題時,大家就會想到微調(diào)”,一位行業(yè)人士稱。
但經(jīng)過一兩年落地探索,業(yè)界也觀察到微調(diào)存在不少局限。比如它需要準(zhǔn)備語料集基于語料集去訓(xùn)練,但這可能會導(dǎo)致沒訓(xùn)練的部分劣化,出現(xiàn)推理能力退化。另外,一個模型微調(diào)后就分裂為兩個模型,它可能導(dǎo)致未來部署應(yīng)用成本的顯著上升和管理難度的增加。
領(lǐng)域內(nèi)知識積累和專家經(jīng)驗的沉淀,過去兩年一直被視作大模型落地的重要Know-how。一些企業(yè)在分享自身應(yīng)用在垂直場景應(yīng)用經(jīng)驗時也通常會提到這一點。
不過,資深人士指出,這些企業(yè)的探索多是單家企業(yè)的摸索,每一家都從頭開始。從產(chǎn)業(yè)界整體現(xiàn)狀看,缺乏有效的沉淀機制,讓領(lǐng)域內(nèi)專家知識和經(jīng)驗的積累沉淀能以比較有效的機制去規(guī)模化復(fù)制。

今年WAIC人潮如織,火爆異常。
韋韜提到,此次螞蟻密算推出HOP框架,也是業(yè)界里比較系統(tǒng)地從工程化層面來思考大模型應(yīng)用可靠性問題,并將可靠性提高如此高度的企做法。它具有成本低、可靈活迭代、更具穩(wěn)定性以及更能規(guī)模化應(yīng)用等多個特征,有利于大模型可信應(yīng)用在產(chǎn)業(yè)界的推進。
以成本為例,韋韜介紹,相比傳統(tǒng)的微調(diào)方案,以前需要更大算力支撐來訓(xùn)練,但HOP框架則并不需要如此高投入。
而在靈活迭代上,只要大模型執(zhí)行時正確率和完成率指標(biāo)達不到要求,應(yīng)用方可以基于HOP框架可以去進行優(yōu)化。
比如把操作流程進一步分拆,核驗進一步進行優(yōu)化。另外,行業(yè)應(yīng)用時表現(xiàn)不佳還可能與場景知識不全,對場景化術(shù)語理解錯誤以及知識圖譜的不足有關(guān)。這時候也可以對應(yīng)通過提供更好的數(shù)據(jù),再做好分拆核驗流程,也有望提升模型在場景內(nèi)的表現(xiàn)。
韋韜認(rèn)為,高階程序出來之前,工程化很麻煩,因為沒有很好的載體在workflow工作流層面來做這件事,要交付比較麻煩。有了高階程序之后,交付起來非常容易。同時,因為HOP有極高的業(yè)務(wù)價值,基于螞蟻密算的密算能力來做,可以對整個應(yīng)用流程進行保護。另外,每個通過驗證的HOP應(yīng)用,都能夠比較可信可靠去調(diào)用。
據(jù)了解,目前,高階程技術(shù)框架已經(jīng)在金融風(fēng)控全鏈路、網(wǎng)絡(luò)入侵檢測、醫(yī)療重復(fù)計費等多行業(yè)場景中初步應(yīng)用,在可靠性和時效性上有顯著提升。
螞蟻密算相關(guān)人士介紹,以金融聯(lián)合風(fēng)控場景為例,在傳統(tǒng)金融風(fēng)控體系下,從數(shù)據(jù)探查、處理到模型構(gòu)建與調(diào)優(yōu)的全鏈路操作,高度依賴人工干預(yù),導(dǎo)致流程冗長、響應(yīng)緩慢,并且容易受人員主觀因素影響,制約了金融風(fēng)控聯(lián)合建模的效率與一致性。
在應(yīng)用HOP技術(shù)框架后,將復(fù)雜的SOP轉(zhuǎn)化為可執(zhí)行的流程與代碼,實現(xiàn)風(fēng)控全鏈路的智能化編排與自動化執(zhí)行。相較于傳統(tǒng)建模人員手動進行數(shù)據(jù)分析和代碼開發(fā),大模型結(jié)合HOP能夠在確保高精度的同時縮短建模周期,并顯著減少了重復(fù)性數(shù)據(jù)處理和流程執(zhí)行等繁瑣的基礎(chǔ)工作。這不但能降低處理成本,還能夠緩解專業(yè)人才緊缺的局面。
但韋韜也指出,基于HOP可能也并非一勞永逸,靠一個應(yīng)用并不能把所有行業(yè)問題都解決。它更多像是提供了一個技術(shù)框架,每個具體場景可以通過這個技術(shù)框架解決問題。
同時,智能跟工程的融合,智能跟專家知識的融合,都是行業(yè)性的命題,需要在不同的領(lǐng)域與各行業(yè)的行業(yè)專家來共同構(gòu)建生態(tài),才能推進大模型的可信落地。
“高階程序的可行性框架是來服務(wù)整個生態(tài)的,我們想通過開源這種形式來跟行業(yè)更緊密合作,解決大模型在專業(yè)應(yīng)用中的可靠性困境,推動大模型在專業(yè)領(lǐng)域中規(guī)模化應(yīng)用”,韋韜說。