Lux 要是一個專門用於計算機操作的基礎模型。和那些只會生成文字的 AI 不同,Lux 能看懂屏幕內容並理解自然語言描述的任務目標,然後實時操控計算機完成工作。
比如説你對電腦説"打開瀏覽器,訪問 xxx",然後它就真的執行了:鼠標移動、圖標點擊、網址輸入、頁面滾動,整個過程和真人操作沒什麼區別。
Lux 的技術實現
Lux 不依賴 API 接口所以能在任何應用中工作:瀏覽器、編輯器、郵件客户端、表格軟件都行。它的核心技術是計算機視覺配合動作預測:
- 捕獲屏幕截圖
- 解析 UI 組件
- 預測下一步操作(點擊、輸入、滾動)
- 循環執行直到任務結束
在 300 個實際場景的測試中,Lux 的表現超過了 Google Gemini CUA、OpenAI Operator 和 Anthropic Claude。
工作機制
Lux 運行在一個持續的動作-觀察循環裏:
目標 → 視覺分析 → 執行動作 → 獲取反饋 → 循環
用户用自然語言下達指令,比如:"打開瀏覽器並打開 xxx",然後Lux 會截取當前屏幕畫面並根據截圖內容判斷下一步該做什麼:
- 點擊某個按鈕
- 輸入文字
- 移動光標
- 滾動頁面
- 觸發快捷鍵
然後執行相應的動作並捕獲新的屏幕狀態。
這個循環會一直跑下去直到任務完成,可以把它想象成一個坐在你電腦前幹活的 AI 助手。
環境配置
在使用 Lux 之前需要完成安裝和權限設置。
步驟 1:權限授予
Lux 需要的權限和普通自動化工具一樣:屏幕錄製權限和輔助功能權限。
執行命令:
oagi agent permission
macOS 系統系統會彈出權限請求:
- 輔助功能
- 屏幕錄製
在 系統設置 — 隱私與安全 裏批准這些權限,完成後重啓終端。
步驟 2:API 認證
打開 agiopen生成新的 API 密鑰。新註冊用户有 $10 免費額度,夠跑幾十次代理任務了。
配置環境變量
export OAGI_API_KEY=sk-...
export OAGI_BASE_URL=https://api.agiopen.org
步驟 3:桌面環境準備
Lux 直接讀取屏幕內容,所以工作區越乾淨UI 元素識別就越準確。
推薦配置如下
- 單個大窗口的瀏覽器
- 空白起始頁
- 桌面整潔
- 背景簡潔
不推薦的配置
- 窗口又小又亂
- 多個程序互相遮擋
- 複雜的桌面壁紙
環境混亂的話Lux 可能會重試操作或者點錯位置。
步驟 4:第一次運行
oagi agent run "Go to https://agiopen.org" --model "lux-actor-1"
你會看到鼠標自己動、鍵盤自己敲字,整個過程完全自動化。
實際案例
假設要讓 Lux 完成這樣一個任務:
啓動瀏覽器,搜索 "OpenAGI Lux model documentation" 瀏覽搜索結果
命令是:
oagi agent run "Open a browser, search for OpenAGI Lux model documentation, and scroll through the results." --model "lux-actor-1"
Lux 會依次:
- 識別瀏覽器圖標
- 點擊啓動
- 找到搜索框
- 輸入關鍵詞
- 按回車
- 檢測頁面可滾動區域
- 逐步向下翻頁
全程靠視覺理解和動作預測完成。
總結
Lux 不只是個模型,它代表了一個方向:讓計算機能直接響應人的意圖,而不是通過一系列點擊來間接表達。
如果你曾經希望電腦能"替你把事情做了"Lux 把這個想法變成了現實。
https://avoid.overfit.cn/post/084c91d2d2df493f8daa93b25268a6c8
作者:Civil Learning