極客網(wǎng)·極客觀察9月10日 學生參加考試,當他不知道題目的答案時,可能會猜測。實際上,AI聊天機器人也一樣。AI給出的答案可能看起來正確,實際卻是完全錯誤的,這就是所謂的“幻覺”。
從本質(zhì)上講,AI大語言模型生成的回復偏離事實或者不符合邏輯,就會產(chǎn)生幻覺。在訓練時模型難免存在數(shù)據(jù)空白,但它會用看似合理、實則錯誤的細節(jié)填補、掩飾。
AI并非有意欺騙人類,而是人類利用龐大數(shù)據(jù)進行訓練時存在缺陷。AI預測序列的下一個單詞或者詞匯時,并未真正理解含義,所以導致錯誤。
雖然近年來AI技術(shù)有所進步,但即便是在OpenAI的GPT-5模型中,幻覺依然存在,而且還很嚴重。
AI幻覺出現(xiàn)與獎勵出錯有關(guān)
為什么會出現(xiàn)幻覺?一些專家認為,主要是訓練數(shù)據(jù)和算法存在局限性。OpenAI開發(fā)的AI模型實際上就是模式匹配機器,它擅長模仿,但是當數(shù)據(jù)不完整或者含糊不清時就容易出錯。
OpenAI最近發(fā)表論文,認為造成幻覺的原因是訓練時方法錯誤。當模型輸出充滿自信的結(jié)果時會獲得“獎勵”,哪怕給出的結(jié)果是猜測的,也會得到獎勵,這就誘導AI輸出過度自信但存在錯誤的信息。
也就是說,在回復時AI喜歡“假裝”自己能準確回答問題,不承認自己存在不確定性,這一問題屬于隱性結(jié)構(gòu)性缺陷,暫時找不到解決方法。
一些專家斷言,當前的訓練方法鼓勵AI猜測,導致AI過度自信,不承認自己無知,結(jié)果導致“幻覺”問題有可能越來越嚴重。
就連OpenAI也不得不承認,幻覺可能是永遠無法解決的問題。所以O(shè)penAI認為,不應(yīng)該鼓勵AI猜測,而應(yīng)該鼓勵AI承認不確定性。
然而,另一個問題隨之到來。Claude模型鼓勵AI承認不確定性,對于不準確的回復,它總是避免給出定論。但如此一來,必然會導致Claude在回復時拒絕率居高不下,進而導致用戶不滿,最終影響實用性。
今天的AI實際上有點像“應(yīng)試者”,面對問題時如果無法給出確定答案,為了提高成績,AI會通過猜測來應(yīng)對,因為猜測后成績更高。我們的世界并非絕對的二元對立,對與錯、黑與白,并非如此純粹簡單。生活中到處都是不確定性,真正的準確可能根本就無法實現(xiàn)。
作為人類,當我們走出校園,經(jīng)歷挫折和實踐,會逐漸領(lǐng)悟到“表達存在不確定性”的價值,但在語言模型中,表達不確定卻會遭到懲罰。
為了解決這一問題,OpenAI建議重新設(shè)計評估標準。在評估AI時,如果存在不確定情況,AI棄權(quán),拒絕回應(yīng),不應(yīng)該懲罰它。
OpenAI認為:“我們的評估方法偏愛準確性,這種方法需要更新,評分機制應(yīng)該努力抑制猜測行為。如果主要的評分系統(tǒng)一直鼓勵猜測,那么模型就會不斷學習如何猜測?!?/p>
幻覺成了AI的“癌癥”
“幻覺”問題嚴重阻礙了AI的普及。如果應(yīng)用于醫(yī)療保健或者金融領(lǐng)域,不可靠的結(jié)果可能會造成嚴重后果。
美國普渡大學研究人員Tianyang Xu認為:“對于大多數(shù)幻覺而言,發(fā)生概率已經(jīng)降低到一個用戶可以接受的水平。”但在法律、數(shù)學等領(lǐng)域,幻覺仍然是一大障礙。
加州大學認知科學與人工智能研究專家Mark Steyvers表示:“OpenAI在做一些小努力,有進步,但離目標還很遠,GPT并沒有頻繁地承認自己不知道?!?/p>
Tianyang Xu認為,擴大模型規(guī)??梢愿纳苹糜X問題,我們還可以豐富模型的內(nèi)部關(guān)聯(lián),提高訓練數(shù)據(jù)質(zhì)量。當模型訓練數(shù)據(jù)不足或者基礎(chǔ)信息存在錯誤時,幻覺問題尤其嚴重。此外,當AI面對的論文太長、內(nèi)容超出理解能力時,無論是總結(jié)還是分析,都會產(chǎn)生幻覺現(xiàn)象。
哥本哈根AI公司Silvi的研究人員Mushtaq Bilal指出,完全消除幻覺幾乎是不可能的,如果能做到,AI企業(yè)早就做了。
Saachi Jain管理一個AI安全團隊,他認為,減少錯誤,讓模型承認自己不知道,這是OpenAI關(guān)注的重點。針對問題,OpenAI傾向于給出冗長、開放式回答,這樣也能減少幻覺現(xiàn)象。
艾倫人工智能研究所AI研究員Akari Asai認為,在一項名為“ScholarQA-CS”的文獻綜述基準測試中,如果GPT-5允許聯(lián)網(wǎng),它的表現(xiàn)很好。如果無法聯(lián)網(wǎng),GPT-5就會出現(xiàn)問題,因為大多文獻綜述系統(tǒng)具備與學術(shù)數(shù)據(jù)庫交叉核對的能力,交叉校對至關(guān)重要。如果不聯(lián)網(wǎng),GPT-5出現(xiàn)錯誤的概率相當于GPT-4的兩倍。
New Scientist在一篇文章中表示,AI出現(xiàn)一定程度的幻覺是難以避免的,人類可以通過檢索增強生成技術(shù)來緩解,也就是讓模型參考外部數(shù)據(jù),進行交叉對比。問題在于,隨著模型的擴大,“幻覺率”似乎并沒有降低,反而提高了。
New Scientist在2025年5月的一篇文章中指出,由于AI復雜度增加,幻覺更嚴重了。甚至有人大聲疾呼:“當AI變得更智能時,幻覺不僅不會減少,反而會增加?!?/p>
看來幻覺的確像是AI的癌癥,人類努力多年,無法治愈癌癥,可能幻覺也超出了人類認知,屬于不可解決的范疇。(小刀)
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。