大型語言模型在長鏈推理任務中為何會出現「詞語沙拉」現象?
Answer
大型語言模型在長鏈推理任務中「詞語沙拉」現象解析
大型語言模型(LRM)如ChatGPT-5、Claude 3.5、Gemini 1.5 Pro在執行長鏈推理任務時,會出現「詞語沙拉」現象,這表示模型生成的推理文本看似內容豐富,實則缺乏語義價值。模型甚至可能意識到自己在胡說八道,卻無法停止,造成計算資源浪費。這種現象的出現與長鏈推理的高代價有關,每一步生成的文本都需要被再次解碼、儲存和預測,導致計算開銷遠超普通對話模型。
「詞語沙拉」的成因分析
在長鏈推理過程中,模型常出現「幻覺式贅述」,如重複句式、列舉無關情況或在解釋中兜圈子。這種形式上看似推理,語義上卻空洞的現象,使模型在長推理任務中容易「過度思考」,甚至產生語言幻覺。此外,模型可能缺乏明確的終止條件,導致其在遇到邏輯死胡同時,只能繼續生成表面合理的文字。
「詞語沙拉切斷器」的解決方案
為了解決這個問題,研究團隊提出「詞語沙拉切斷器」(WordSaladChopper)框架,透過監控模型在生成推理時的每個段落,如果連續兩個段落的隱藏狀態顯示出「循環模式」,系統會立即切斷生成,並自動補上提示讓模型重新回答。實驗結果顯示,該方法能以高精度識別重複片段,並在接入干預後最多縮短57%的輸出,且對整體正確率影響可忽略。