大型語言模型在長鏈推理任務中為何會出現「詞語沙拉」現象？

Answer

大型語言模型在長鏈推理任務中「詞語沙拉」現象解析

大型語言模型（LRM）如ChatGPT-5、Claude 3.5、Gemini 1.5 Pro在執行長鏈推理任務時，會出現「詞語沙拉」現象，這表示模型生成的推理文本看似內容豐富，實則缺乏語義價值。模型甚至可能意識到自己在胡說八道，卻無法停止，造成計算資源浪費。這種現象的出現與長鏈推理的高代價有關，每一步生成的文本都需要被再次解碼、儲存和預測，導致計算開銷遠超普通對話模型。

「詞語沙拉」的成因分析

在長鏈推理過程中，模型常出現「幻覺式贅述」，如重複句式、列舉無關情況或在解釋中兜圈子。這種形式上看似推理，語義上卻空洞的現象，使模型在長推理任務中容易「過度思考」，甚至產生語言幻覺。此外，模型可能缺乏明確的終止條件，導致其在遇到邏輯死胡同時，只能繼續生成表面合理的文字。

「詞語沙拉切斷器」的解決方案

為了解決這個問題，研究團隊提出「詞語沙拉切斷器」（WordSaladChopper）框架，透過監控模型在生成推理時的每個段落，如果連續兩個段落的隱藏狀態顯示出「循環模式」，系統會立即切斷生成，並自動補上提示讓模型重新回答。實驗結果顯示，該方法能以高精度識別重複片段，並在接入干預後最多縮短57%的輸出，且對整體正確率影響可忽略。

觀看原始文章