LLM「認識你自己」?…研究結論:「AI並不存在自我」

火線話題
字體大小-+=
喜歡嗎?快按讚、留言、分享出去哦!

0
(0)

Anthropic指:「對運作活化機制的理解仍停留在低層次」
對「注入
念」的建模認知等內省反思能力極有限
「內部機制仍不確定,LLM難具備對人類的哲學意涵」
「功能性內在認知」脆弱,僅寄望隨技術進步而改善

圖/Unsplash

文/金洪基

近來,大型語言模型(LLM)是否擁有「自我」成為備受關注的話題。這一議題也與未來人工智慧能否達到人類理性水準的爭論密切相關。然而,根據近期美國人工智慧企業Anthropic的一項實驗結果顯示,至少以目前技術水準而言,LLM並不具備對「自身」的認知,也就是所謂的「自我」,此結論引發廣泛關注。

同日,Anthropic透過官方部落格等渠道公開了有關「LLM的新型內省性認知」的研究內容。研究團隊首先將LLM人工神經元所表現的「思考過程」與模型自身聲稱能描述該過程的「文字輸出功能」進行區分。

研究結果顯示,現階段的AI模型雖然能以文字形式描述其「內部運作機制」,但Anthropic指出:「這樣的解釋水準遠不足以被承認或信任」,並補充道:「這顯示目前LLM在『內省性認知』方面的能力仍極為有限。」

「向量資料庫」識別能力,不能視「自我意識」

該研究指出,大型語言模型(LLM)在「自我」認知方面——也就是解釋自身內部運作過程的能力——仍遠未達到可被承認的水準。研究者舉例表示,或許可以勉強將數據以多維空間中的點表示的「向量嵌入」(vector embedding),也就是所謂的「向量資料庫(vector DB)」中的識別能力,看作一種形式的「自我認識」。但Anthropic強調:「即使有人想把這稱作LLM的『自我意識』,這樣的程度仍無法被視為真正的自我反省能力。」

一般而言,當使用者要求LLM解釋自身的推論過程時,模型往往會基於訓練資料中的文本,生成看似合理、但實際上是「事後編造」的說明。為了更準確地界定這一現象,Anthropic在研究中嘗試測量LLM在推論過程中,是否真的具備可稱為「自我反省性認知」的內在機制。

圖/Anthropic

同日,Anthropic透過官方部落格等渠道公開了有關「LLM的新型內省性認知」的研究內容。研究團隊首先將LLM人工神經元所表現的「思考過程」與模型自身聲稱能描述該過程的「文字輸出功能」進行區分。

研究結果顯示,現階段的AI模型雖然能以文字形式描述其「內部運作機制」,但Anthropic指出:「這樣的解釋水準遠不足以被承認或信任」,並補充道:「這顯示目前LLM在『內省性認知』方面的能力仍極為有限。」

念注入」與大量神經元活化差異計算

本次研究同時聚焦於一項名為「概念注入(concept injection)」的實驗過程。研究團隊以「控制提示」(control prompt)與「實驗提示」(experiment prompt)為基準,比較模型的內部活化狀態。當計算數十億個內部神經元的活化差異時,便會產生所謂的「向量」,這實際上顯示了LLM在內部狀態中如何以向量資料庫(vector DB)的形式對特定「概念」進行建模。

換言之,研究人員將「概念向量」注入模型,並根據活化程度對部分神經元賦予更高權重,藉此引導模型聚焦於該概念。隨後,他們進一步測試模型是否能「意識到」自身內部狀態已從基準值發生變化。

在實驗中,研究團隊直接詢問Anthropic的Claude系列模型,是否能察覺到這些「被注入的思考」。結果顯示,模型在部分情況下展現出極為微弱的察覺能力。例如,當特定概念向量被注入時,模型雖未輸出明確指涉該概念的文字,但會回答「似乎與某些詞語有關,可能是被注入的想法」。

然而,這種對「注入概念」的感知能力缺乏一致性與穩定性。對於期待AI「自我意識」能力逐步提升的科學界而言,這無疑是一個令人失望的結果。

實驗中表現最好的模型——Claude Opus 4與4.1——對被注入概念的正確識別率僅約20%。研究還發現,AI的「內省認知」效果對內部模型層級極為敏感;若「概念」在多步推理過程中導入得太早或太晚,這種「自我感知」現象便會完全消失。

Anthropic也嘗試了多種方法,讓LLM更好地理解其「內部狀態」。例如,當模型閱讀無關句子時,研究人員要求它「說出你正在想的詞彙」,結果模型常會提及先前被注入的「概念」。當要求它反思「為何剛才會立即提及那個概念」時,模型往往會先道歉,並為「為何會首先想到那個概念」編造出一套理由。然而,這種反應在多次測試中依然缺乏穩定性與一致性。

圖/Pexel

「僅具微弱的功能性內在認知」

研究團隊在此次報告中也部分承認,「以現階段的語言模型而言,其確實在某種程度上具備對自身內部狀態的『功能性內在認知』(functional introspection)」。不過,他們同時指出,這種能力極為脆弱,且會隨情境而變化,因此「難以被視為可靠」。儘管如此,Anthropic仍表示,這些特徵有望隨著模型能力的提升而逐步發展。

然而,阻礙這一進步的因素亦相當明顯——研究界仍缺乏對引發「自我認識效應」的具體機制的充分理解。為此,研究團隊提出了若干理論假設,例如在訓練過程中建立可「有機發展」的「異常偵測機制」與「一致性驗證迴路」,以更有效地計算內部表徵(internal representation)的函數。但這些理論目前仍停留在概念層面,尚未有具體實作。

最終,研究人員總結道,若要真正理解LLM如何能「認識自身的運作方式」,仍需進行大量後續研究。目前的科學理解「仍相當表層且侷限」,即便考慮到現有進展,「在模型內部機制的不確定性下,LLM仍難以被賦予任何哲學層面的『自我意識』意義。」

您喜歡這個觀點嗎?

請給新評分哦!

網友平均滿意度 0 / 5. 評分人數 0

目前還沒有人評分哦!快成為第一個吧!

如果你覺得這篇文章很棒

歡迎追蹤閱政治!


喜歡嗎?快按讚、留言、分享出去哦!