Lux 上手指南：讓 AI 直接操作你的電腦詳情 - 人工智能,llm,agent,深度學習,神經網絡 deephub 博客 | YeLogs.com

博客 / 詳情

Lux 上手指南：讓 AI 直接操作你的電腦

02:43 PM · Dec 31 ,2025

Lux 要是一個專門用於計算機操作的基礎模型。和那些只會生成文字的 AI 不同，Lux 能看懂屏幕內容並理解自然語言描述的任務目標，然後實時操控計算機完成工作。

比如説你對電腦説"打開瀏覽器，訪問 xxx"，然後它就真的執行了：鼠標移動、圖標點擊、網址輸入、頁面滾動，整個過程和真人操作沒什麼區別。

Lux 的技術實現

Lux 不依賴 API 接口所以能在任何應用中工作：瀏覽器、編輯器、郵件客户端、表格軟件都行。它的核心技術是計算機視覺配合動作預測：

捕獲屏幕截圖
解析 UI 組件
預測下一步操作（點擊、輸入、滾動）
循環執行直到任務結束

在 300 個實際場景的測試中，Lux 的表現超過了 Google Gemini CUA、OpenAI Operator 和 Anthropic Claude。

工作機制

Lux 運行在一個持續的動作-觀察循環裏：

 目標 → 視覺分析 → 執行動作 → 獲取反饋 → 循環

用户用自然語言下達指令，比如："打開瀏覽器並打開 xxx"，然後Lux 會截取當前屏幕畫面並根據截圖內容判斷下一步該做什麼：

點擊某個按鈕
輸入文字
移動光標
滾動頁面
觸發快捷鍵

然後執行相應的動作並捕獲新的屏幕狀態。

這個循環會一直跑下去直到任務完成，可以把它想象成一個坐在你電腦前幹活的 AI 助手。

環境配置

在使用 Lux 之前需要完成安裝和權限設置。

步驟 1：權限授予

Lux 需要的權限和普通自動化工具一樣：屏幕錄製權限和輔助功能權限。

執行命令：

 oagi agent permission

macOS 系統系統會彈出權限請求：

輔助功能
屏幕錄製

在 系統設置 — 隱私與安全 裏批准這些權限，完成後重啓終端。

步驟 2：API 認證

打開 agiopen生成新的 API 密鑰。新註冊用户有 $10 免費額度，夠跑幾十次代理任務了。

配置環境變量

 export OAGI_API_KEY=sk-...  
 export OAGI_BASE_URL=https://api.agiopen.org

步驟 3：桌面環境準備

Lux 直接讀取屏幕內容，所以工作區越乾淨UI 元素識別就越準確。

推薦配置如下

單個大窗口的瀏覽器
空白起始頁
桌面整潔
背景簡潔

不推薦的配置

窗口又小又亂
多個程序互相遮擋
複雜的桌面壁紙

環境混亂的話Lux 可能會重試操作或者點錯位置。

步驟 4：第一次運行

 oagi agent run "Go to https://agiopen.org" --model "lux-actor-1"

你會看到鼠標自己動、鍵盤自己敲字，整個過程完全自動化。

實際案例

假設要讓 Lux 完成這樣一個任務：

啓動瀏覽器，搜索 "OpenAGI Lux model documentation" 瀏覽搜索結果

命令是：

 oagi agent run "Open a browser, search for OpenAGI Lux model documentation, and scroll through the results." --model "lux-actor-1"

Lux 會依次：

識別瀏覽器圖標
點擊啓動
找到搜索框
輸入關鍵詞
按回車
檢測頁面可滾動區域
逐步向下翻頁

全程靠視覺理解和動作預測完成。

總結

Lux 不只是個模型，它代表了一個方向：讓計算機能直接響應人的意圖，而不是通過一系列點擊來間接表達。

如果你曾經希望電腦能"替你把事情做了"Lux 把這個想法變成了現實。

https://avoid.overfit.cn/post/084c91d2d2df493f8daa93b25268a6c8

作者：Civil Learning

llm , agent , 神經網絡 , 人工智能 , 深度學習

0 位用戶收藏了這個故事！