為何AI已具備處理一小時任務的能力，卻無法接手例行工作？

Answer

人工智慧在任務處理能力上的限制

人工智慧（AI）的發展日新月異，根據研究顯示，AI 能夠處理的任務時長正在快速增長。一些先進的 AI 模型，在特定基準測試中，已能完成長達一小時的任務，成功率達到約 50%。然而，儘管 AI 在實驗環境中展現出強大的能力，但在實際應用中，許多例行工作仍然無法被自動化，這引發了一個問題：為何 AI 具備處理長時間任務的能力，卻無法廣泛應用於日常工作？

真實任務的複雜性與 AI 的局限性

AI 無法完全接手例行工作的原因，主要在於真實世界任務的複雜性。研究指出，AI 的任務能力高度依賴特定領域，且若要將成功率提升至實際應用所需的標準，任務時長會受到大幅壓縮。此外，現實任務通常涉及多重情境，難以拆解，這與 AI 測試環境中常見的封閉、低變動、目標明確的場景大相逕庭。

AI 任務能力評估的盲點

目前 AI 任務能力的評估，主要基於特定軟體類任務測試，例如評估 AI 系統與人類互動時的有效性、適應性的 HCAST，檢驗模型在複雜邏輯推理任務表現的 RE-Bench，以及評估 AI 代理在理解、處理與運用語義資訊能力的 SWAA Suite。這些測試環境與真實工作情境存在落差，使得 AI 在測試中展現的能力，難以直接轉移到實際應用中。此外，研究也指出，若選擇不同的任務領域作為分析基準，AI 的任務能力推估結果也會產生大幅變動。這意味著，我們需要更全面、更貼近真實情境的評估方式，才能更準確地了解 AI 在實際應用中的潛力與限制。

觀看原始文章