訂閱
糾錯(cuò)
加入自媒體

AI學(xué)習(xí)筆記|大語言模型為什么會(huì)說謊?

我指的大語言模型的說謊問題,還不是傳統(tǒng)分析式AI的結(jié)果不準(zhǔn)確那么簡單。而是它會(huì)一本正經(jīng)的瞎編。

當(dāng)你在使用大語言模型試圖完成一個(gè)長文本輸出的過程中,會(huì)發(fā)現(xiàn)大語言模型在完成創(chuàng)作時(shí)所引入的很多案例、數(shù)據(jù),看似合理嚴(yán)謹(jǐn),但其實(shí)壓根就不存在,全部都是它自己瞎編。

在本周我與一位同行的交流中,我的這個(gè)觀點(diǎn)也得到了印證。

據(jù)她說,如今很多人在被委托寫商業(yè)稿時(shí),為了圖省事已經(jīng)由AI完全代筆來交稿。這類文章自然流暢,所以欺騙性很高,一般人還真的不容易發(fā)覺哪里是錯(cuò)的,往往都是當(dāng)事企業(yè)的資深親歷者(基本就是甲方負(fù)責(zé)人)會(huì)提出質(zhì)疑:「我怎么不知道有過這回事?」一篇AI稿,直接把負(fù)責(zé)人、媒體、作者都裝進(jìn)去了。

這就很尷尬了。

同行管這種現(xiàn)象叫「AI幻覺」。典型表現(xiàn)就是:1、數(shù)據(jù)幻覺,根據(jù)邏輯編數(shù)據(jù);2、關(guān)鍵信息編造;3、企業(yè)發(fā)展故事亂編;4、語言表達(dá)套話多、模板多。

所以在她的收稿要求里,AI創(chuàng)作已經(jīng)是三令五申的絕對禁止了。

甚至最后,她還說了一句和我在「AI紀(jì)」第一期同樣的話:「堅(jiān)決呼喚真人創(chuàng)作,商業(yè)寫作要有人味。」——嗯,這個(gè)結(jié)論要算是我本周聽到過最鼓舞人心的一句話了。

但問題是,大語言模型為什么要說謊呢?

 

01 琢磨不透的涌現(xiàn)能力

1950年,計(jì)算機(jī)之父圖靈在它的論文《計(jì)算機(jī)器與智能》中提出了一個(gè)觀點(diǎn):「學(xué)習(xí)機(jī)器有一個(gè)重要的特征,即它的老師往往對機(jī)器內(nèi)部運(yùn)行情況一無所知!

這句話,成了如今的人們對大語言模型所展現(xiàn)出的恐怖「涌現(xiàn)能力」的最佳概括。

人們琢磨不透,為什么訓(xùn)練提供的數(shù)據(jù)(預(yù)訓(xùn)練語言模型)是可控的,所使用的架構(gòu)(transformer架構(gòu))也是可控的,偏偏數(shù)據(jù)在架構(gòu)上跑了一遍之后,所呈現(xiàn)出的結(jié)果與能力就徹底不可控了。

典型的「大語言模型涌現(xiàn)能力」有這么幾種:

上下文學(xué)習(xí):GPT-3首次引入了這種能力,大語言模型不再需要額外的訓(xùn)練或參數(shù)更新,而是可以通過對自然語言指令的上下文理解來執(zhí)行任務(wù);指令遵循:在A任務(wù)上經(jīng)過指令微調(diào)后的大模型,在被要求去執(zhí)行完全不同的、未曾出現(xiàn)過的B任務(wù)時(shí),也能照A任務(wù)畫瓢,且完成得很好。逐步推理:采用「思維鏈」推理策略的大模型,相比小語言模型擁有對某一復(fù)雜問題的逐步解決能力。

這些能力不是單純靠數(shù)據(jù)投喂出來的,也不是序列到序列的transformer架構(gòu)所提供的,大語言模型為什么能做到這些?沒人知道。目前對涌現(xiàn)能力,我們只能表述觀察到的奇特現(xiàn)象,卻完全無法理解它為什么會(huì)發(fā)生。

類似的問題還有,涌現(xiàn)是在多大參數(shù)規(guī)模出現(xiàn)的?哪些調(diào)整會(huì)影響能力的涌現(xiàn)?會(huì)涌現(xiàn)出哪些方向的能力?我們能控制它嗎?……

這些問題統(tǒng)統(tǒng)沒有答案。

因?yàn)楦悴欢@一切究竟是如何發(fā)生的,所以我們管transformer架構(gòu)下的大語言模型的運(yùn)行模式,叫「黑盒模式」。

甚至變現(xiàn)優(yōu)秀的大語言模型,還會(huì)展現(xiàn)出很好的多模態(tài)能力。比如,當(dāng)有人給GPT-4看了一張由雞塊拼成的類世界地圖的照片時(shí),GPT-4不僅準(zhǔn)確理解了圖片所指,它甚至還理解到了圖片背后作者的幽默感。

獨(dú)立學(xué)習(xí),甚至能理解人類情感,是不是意味著AI可以有情感了?

它是不是有自我意識(shí)了?

我們是不是離AGI更進(jìn)一步了?

一些人眼里,這畫面有點(diǎn)美。但是在另一些人眼里,這一點(diǎn)都不美。畢竟,開頭我們就說了,它是會(huì)故意說謊的。

而LLM之所以會(huì)說謊,就是因?yàn)檫@個(gè)沒人能解釋的涌現(xiàn)能力。

 

02 為什么會(huì)說謊

2018年圖靈獎(jiǎng)得主、在深度學(xué)習(xí)領(lǐng)域的三位前沿巨頭之一的、「卷積神經(jīng)網(wǎng)絡(luò)之父」、Yann LeCun(楊立昆),在2023年的一次演講中,為我們簡要描述了大語言模型說謊的底層邏輯。

本質(zhì)上來說,今天所看到的LLM等生成式AI的學(xué)習(xí)能力,與人類、動(dòng)物的學(xué)習(xí)能力是有差距的。注意,不是差別,而是差距。

上節(jié)提到過,基于指令微調(diào)+transformer架構(gòu),對于如今的AI訓(xùn)練來說,數(shù)據(jù)投喂是第一步,針對數(shù)據(jù)的調(diào)理是第二步,為了讓海量的數(shù)據(jù)得到高效、精準(zhǔn)的處理,我們有了transformer架構(gòu),這個(gè)架構(gòu)的特點(diǎn)之一,是會(huì)捕捉指令中的依賴關(guān)系。

但,當(dāng)捕捉不到所需內(nèi)容時(shí),transformer架構(gòu)會(huì)用「預(yù)測」的方式,來補(bǔ)全缺失的部分。且,系統(tǒng)在進(jìn)行預(yù)測時(shí),并不是預(yù)測所有缺失單詞,而是僅預(yù)測最后一個(gè)標(biāo)記。系統(tǒng)不斷預(yù)測下一個(gè)標(biāo)記(token),然后將標(biāo)記移入輸入,再預(yù)測下一個(gè)標(biāo)記,再移入,再標(biāo)記,不斷重復(fù)。

這種預(yù)測方式有一個(gè)專門的稱謂,「概率生成」,「token by token」。

當(dāng)不必推理、預(yù)測,每一步都有事實(shí)可依時(shí),結(jié)論無疑會(huì)精準(zhǔn)且自然;但當(dāng)每一步都有缺失、都需要預(yù)測時(shí),它的最終結(jié)論,反而很可能在一個(gè)錯(cuò)誤結(jié)論的基礎(chǔ)上,不斷錯(cuò)上加錯(cuò)。

所呈現(xiàn)的效果就是,大語言模型在一本正經(jīng)的胡說八道、在說謊。

按照Yann LeCun的說法,「如果你將這些模型訓(xùn)練在一萬億個(gè) Token 或兩萬億個(gè) Token 的數(shù)據(jù)上,它們的性能是驚人的。但最終,它們會(huì)犯很愚蠢的錯(cuò)誤。它們會(huì)犯事實(shí)錯(cuò)誤、邏輯錯(cuò)誤、不一致性,它們的推理能力有限,會(huì)產(chǎn)生有害內(nèi)容!

這個(gè)錯(cuò)誤,無關(guān)乎大語言模型的產(chǎn)品力,而是其運(yùn)行邏輯所決定的,它只要運(yùn)行,必然有概率說謊。因?yàn)檫@一切都是基于transformer架構(gòu)下的自回歸、自監(jiān)督、自學(xué)習(xí),所以你甚至都無法得知,它會(huì)在哪個(gè)部分說謊。

說謊,是transformer架構(gòu)下無法解決的問題。

所以,在很多人將transformer架構(gòu)認(rèn)為是AGI的實(shí)現(xiàn)路徑時(shí),以Yann LeCun為首的一派,對此持否定態(tài)度。

我傾向于此判斷。我們無法把核心問題、關(guān)鍵領(lǐng)域,去放心交給一個(gè)會(huì)有概率自欺欺人的AI,尤其是你還不知道它到底在哪一節(jié)在說謊。

而倘若核心問題上無法被依仗,它就無法被視作AGI。

所以實(shí)現(xiàn)AGI,可能還得繼續(xù)換路線。

除非它不再說謊。

 

03 不說謊的大模型

針對基于transformer架構(gòu)下大模型說謊的問題,Yann LeCun等人的解決辦法是,直接換路線。

他提出的方向,是旨在讓大模型能夠具備人類一樣的學(xué)習(xí)、推理、規(guī)劃能力。

舉例來說,人類在嬰兒時(shí)期,會(huì)先掌握非常多世界運(yùn)作方式的基礎(chǔ)概念,比如物體永恒、世界是三維的、有機(jī)與無機(jī)的區(qū)別、穩(wěn)定的概念、重力的概念,有研究指出,嬰兒在9個(gè)月左右就會(huì)具備這些能力。

根據(jù)Yann LeCun團(tuán)隊(duì)的研究,如果向 5 個(gè)月大的嬰兒展示下面左下角的場景,其中一個(gè)小汽車在平臺(tái)上,你將小汽車從平臺(tái)上推下來,它似乎漂浮在空中,5 個(gè)月大嬰兒不會(huì)感到驚訝。但是 10 個(gè)月大的嬰兒會(huì)非常驚訝,因?yàn)檫@個(gè)階段的嬰兒已經(jīng)知道了物體不應(yīng)該停留在空中,它們應(yīng)該在重力下下落。

Yann LeCun認(rèn)為,「我們應(yīng)該用機(jī)器復(fù)制這種通過觀察世界或體驗(yàn)世界學(xué)習(xí)世界運(yùn)作方式的能力。」基于此,他在2022年的論文《A Path Towards Autonomous Machine Intelligence》中,提出了「世界模型」(World Model)的概念。

世界模型下,大模型可以想象一個(gè)場景,并基于此場景的框定,去預(yù)測行動(dòng)的結(jié)果。且這種場景框定和現(xiàn)今大模型的角色扮演還不一樣。讓大模型不再是基于數(shù)據(jù)進(jìn)行概率預(yù)測,而是要讓其能理解現(xiàn)實(shí)空間、物理規(guī)律等世界運(yùn)行的基礎(chǔ)概念。

最關(guān)鍵的,是其推理必須基于現(xiàn)實(shí),而不是黑盒,必須可視、可預(yù)測,而不能無法解釋。從這個(gè)角度來講,大語言模型令人驚嘆的涌現(xiàn)能力,反倒可能是LLM誤入歧途?

應(yīng)當(dāng)指出的是,世界模型聽上去很美好,但這是一個(gè)很有遠(yuǎn)見、同時(shí)也是極具難度的事情。一旦完成了從LLM到世界模型的跨越,或許我們在有生之年,就真的要見證AGI了。

同時(shí),相比世界模型這種徹底換路線的方案,也有一些人在嘗試用基于LLM縫縫補(bǔ)補(bǔ)、想辦法讓它不說謊的方法解決問題。

比如最近,我國上海交大趙海教授團(tuán)隊(duì)發(fā)布了首個(gè)宏觀模擬人類大腦全局機(jī)制的大語言模型,「BriLLM」,它強(qiáng)調(diào)以腦科學(xué)神經(jīng)系統(tǒng)為靈感,用受大腦啟發(fā)的動(dòng)態(tài)信號(hào)傳播,替代自注意力機(jī)制,旨在擺脫傳統(tǒng)transformer架構(gòu)的某些限制。

「人類大腦無需擴(kuò)容就能處理終身記憶,這才是 AGI 該有的樣子!」論文一作趙海教授指出。目前,該項(xiàng)目已入選上海交大「交大2030」計(jì)劃2025年度重點(diǎn)項(xiàng)目資助。

而這個(gè)BriLLM 模型與世界模型相似之處是,他們都強(qiáng)調(diào)模型中所有節(jié)點(diǎn)都具備100%可解釋性。

而無論最終結(jié)果如何,無論是「BriLLM」還是「世界模型」,他們的觀點(diǎn)似乎都意味著,針對LLM說謊的問題,前沿的解決方案都渴望先擺脫其涌現(xiàn)能力。

 

參考

[1]機(jī)器之心Pro.告別Transformer,重塑范式:上海交大首個(gè)「類人腦」大模型誕生.今日頭條.2025

[2]凌梓郡、Li Yuan.深度學(xué)習(xí)三巨頭之一 Yann LeCun:大語言模型帶不來 AGI.極客公園.2023

[3]珊瑚.大語言模型火爆的今天,我們?yōu)槭裁催要擁抱世界模型?.腦極體.2025

[4]大語言模型、楊立昆等.百度百科.2025

‍‍

-原創(chuàng)不易 歡迎分享 未經(jīng)授權(quán) 禁止轉(zhuǎn)載-

       原文標(biāo)題 : AI學(xué)習(xí)筆記|大語言模型為什么會(huì)說謊?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)