為何AI已具備處理一小時任務的能力,卻無法接手例行工作?
Answer
人工智慧在任務處理能力上的限制
人工智慧(AI)的發展日新月異,根據研究顯示,AI 能夠處理的任務時長正在快速增長。一些先進的 AI 模型,在特定基準測試中,已能完成長達一小時的任務,成功率達到約 50%。然而,儘管 AI 在實驗環境中展現出強大的能力,但在實際應用中,許多例行工作仍然無法被自動化,這引發了一個問題:為何 AI 具備處理長時間任務的能力,卻無法廣泛應用於日常工作?
真實任務的複雜性與 AI 的局限性
AI 無法完全接手例行工作的原因,主要在於真實世界任務的複雜性。研究指出,AI 的任務能力高度依賴特定領域,且若要將成功率提升至實際應用所需的標準,任務時長會受到大幅壓縮。此外,現實任務通常涉及多重情境,難以拆解,這與 AI 測試環境中常見的封閉、低變動、目標明確的場景大相逕庭。
AI 任務能力評估的盲點
目前 AI 任務能力的評估,主要基於特定軟體類任務測試,例如評估 AI 系統與人類互動時的有效性、適應性的 HCAST,檢驗模型在複雜邏輯推理任務表現的 RE-Bench,以及評估 AI 代理在理解、處理與運用語義資訊能力的 SWAA Suite。這些測試環境與真實工作情境存在落差,使得 AI 在測試中展現的能力,難以直接轉移到實際應用中。此外,研究也指出,若選擇不同的任務領域作為分析基準,AI 的任務能力推估結果也會產生大幅變動。這意味著,我們需要更全面、更貼近真實情境的評估方式,才能更準確地了解 AI 在實際應用中的潛力與限制。