大型語言模型(LRM)在長鏈推理任務中為何會出現「詞語沙拉」現象?
Answer
大型語言模型長鏈推理中的「詞語沙拉」現象
大型語言模型(LRM),如 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro,在執行長鏈推理任務時,會出現一種稱為「詞語沙拉」的現象。這種現象指的是模型在生成推理文本時,將詞語像生菜一樣反覆堆疊、重複攪拌,看似內容豐富,實際上毫無語義價值。更令人驚訝的是,模型甚至可能意識到自己在胡說八道,卻無法自行停止,導致大量計算資源被浪費。
「詞語沙拉」的成因
「詞語沙拉」的出現與長鏈推理的高代價有關。每一步生成的文本都需要被再次解碼、儲存和預測,計算開銷遠超普通對話模型。模型在長鏈推理過程中,經常出現「幻覺式贅述」,例如重複句式、列舉無關情況,或在解釋中兜圈子。這種形式上看似推理,但語義上完全空洞的現象,使得模型在長推理任務中容易「過度思考」,甚至產生語言幻覺。此外,模型可能缺乏明確的終止條件,導致其在遇到邏輯死胡同時,只能繼續生成表面合理的文字。
「詞語沙拉切斷器」的解決方案
為了解決「詞語沙拉」問題,研究團隊提出了一種名為「詞語沙拉切斷器」(WordSaladChopper)的框架。該框架通過監控模型在生成推理時的每個段落,如果連續兩個段落的隱藏狀態顯示出「循環模式」,系統會立即切斷生成,並自動補上提示讓模型重新回答。實驗結果顯示,該方法能夠以高精度識別重複片段,並在接入干預後最多縮短 57% 的輸出,且對整體正確率影響可忽略。