Claude 的「Computer Use」功能如何突破 AI 互動限制? | 經理人

電腦操作功能突破 AI 互動限制,實現多步驟自主操作

Anthropic 在 Claude 模型中推出的「Computer Use」功能,代表著 AI 在互動能力上的一大躍進。此功能讓 Claude 模型能夠像人類一樣,透過讀取螢幕截圖與控制滑鼠、鍵盤,自主地進行多步驟的深度互動,打破了以往 AI 只能被動接收指令的限制。目前這項功能以 Beta 版開放給 macOS 用戶,預示著 AI 在工作效率與自動化方面的巨大潛力。

Dispatch 功能實現跨裝置任務指派,提升工作效率

為方便使用者在不同情境下使用 Computer Use 功能,Anthropic 同步推出了 Dispatch 功能。透過 Dispatch,使用者可以在手機上直接指派任務給 Claude,例如在通勤時讓電腦製作簡報、在開發環境中修改程式碼,或是讓它接手 3D 列印專案的進度。這項功能讓使用者可以更靈活地運用 AI,充分利用碎片時間,顯著提升工作效率。目前 Dispatch 功能已在 Claude Cowork 與 Claude Code 這 2 款應用程式中推出,為使用者帶來更便捷的 AI 協作體驗。

Agent Loop 確保 AI 行為可控,降低潛在風險

針對開發者,Anthropic 提供了 Computer Use 的 API,讓他們可以將此功能串接到自己的應用程式中。為了解決人們對於 AI 自主性的疑慮,Anthropic 引入了 Agent Loop(代理迴圈)機制。在 Agent Loop 的運作下,AI 的每一個動作都需要經過開發者的授權才能執行,AI 每完成一個步驟,就會回報結果,開發者確認後才能繼續。這種有來有往的互動模式,確保了 AI 的行為始終在開發者的掌控之中,有效降低了潛在風險。

Agent Loop 四步驟循環運作,達成使用者目標

Agent Loop 的運作可拆解為四個步驟。首先,應用程式接收 Claude 發出的工具使用請求;接著,將請求轉換為虛擬環境中的實際操作,如控制滑鼠或鍵盤;然後,執行後應用程式會拍下螢幕截圖或擷取指令的輸出結果;最後,將這些最新狀態回傳給 Claude。只要尚未達成用戶最初的目標,系統就會持續重複這四個步驟,直到任務完成。這種循環運作的方式,讓 AI 能夠逐步完成複雜的任務,而無需人工干預。

API 開發者需注意 Beta 版限制與風險,確保系統安全

儘管 Computer Use 功能具有很大的潛力,Anthropic 也提醒開發者注意 API 的 Beta 版限制與潛在風險。官方文件列出了八大限制,包含處理速度延遲、電腦視覺座標判斷誤差等。此外,為防範安全漏洞,API 端內建了分類器防護層,若偵測到潛在的提示詞注入攻擊,會自動暫停並要求使用者授權。Anthropic 建議開發者在獨立的沙盒環境中執行此功能,並在系統架構中設計人類審查機制,以確保系統安全。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容