博客 / 詳情

返回

Lux 上手指南:讓 AI 直接操作你的電腦

Lux 要是一個專門用於計算機操作的基礎模型。和那些只會生成文字的 AI 不同,Lux 能看懂屏幕內容並理解自然語言描述的任務目標,然後實時操控計算機完成工作。

比如説你對電腦説"打開瀏覽器,訪問 xxx",然後它就真的執行了:鼠標移動、圖標點擊、網址輸入、頁面滾動,整個過程和真人操作沒什麼區別。

Lux 的技術實現

Lux 不依賴 API 接口所以能在任何應用中工作:瀏覽器、編輯器、郵件客户端、表格軟件都行。它的核心技術是計算機視覺配合動作預測

  • 捕獲屏幕截圖
  • 解析 UI 組件
  • 預測下一步操作(點擊、輸入、滾動)
  • 循環執行直到任務結束

在 300 個實際場景的測試中,Lux 的表現超過了 Google Gemini CUA、OpenAI Operator 和 Anthropic Claude。

工作機制

Lux 運行在一個持續的動作-觀察循環裏:

 目標 → 視覺分析 → 執行動作 → 獲取反饋 → 循環

用户用自然語言下達指令,比如:"打開瀏覽器並打開 xxx",然後Lux 會截取當前屏幕畫面並根據截圖內容判斷下一步該做什麼:

  • 點擊某個按鈕
  • 輸入文字
  • 移動光標
  • 滾動頁面
  • 觸發快捷鍵

然後執行相應的動作並捕獲新的屏幕狀態。

這個循環會一直跑下去直到任務完成,可以把它想象成一個坐在你電腦前幹活的 AI 助手。

環境配置

在使用 Lux 之前需要完成安裝和權限設置。

步驟 1:權限授予

Lux 需要的權限和普通自動化工具一樣:屏幕錄製權限輔助功能權限

執行命令:

 oagi agent permission

macOS 系統系統會彈出權限請求:

  • 輔助功能
  • 屏幕錄製

系統設置 — 隱私與安全 裏批准這些權限,完成後重啓終端。

步驟 2:API 認證

打開 agiopen生成新的 API 密鑰。新註冊用户有 $10 免費額度,夠跑幾十次代理任務了。

配置環境變量

 export OAGI_API_KEY=sk-...  
 export OAGI_BASE_URL=https://api.agiopen.org

步驟 3:桌面環境準備

Lux 直接讀取屏幕內容,所以工作區越乾淨UI 元素識別就越準確。

推薦配置如下

  • 單個大窗口的瀏覽器
  • 空白起始頁
  • 桌面整潔
  • 背景簡潔

不推薦的配置

  • 窗口又小又亂
  • 多個程序互相遮擋
  • 複雜的桌面壁紙

環境混亂的話Lux 可能會重試操作或者點錯位置。

步驟 4:第一次運行

 oagi agent run "Go to https://agiopen.org" --model "lux-actor-1"

你會看到鼠標自己動、鍵盤自己敲字,整個過程完全自動化。

實際案例

假設要讓 Lux 完成這樣一個任務:

啓動瀏覽器,搜索 "OpenAGI Lux model documentation" 瀏覽搜索結果

命令是:

 oagi agent run "Open a browser, search for OpenAGI Lux model documentation, and scroll through the results." --model "lux-actor-1"

Lux 會依次:

  1. 識別瀏覽器圖標
  2. 點擊啓動
  3. 找到搜索框
  4. 輸入關鍵詞
  5. 按回車
  6. 檢測頁面可滾動區域
  7. 逐步向下翻頁

全程靠視覺理解和動作預測完成。

總結

Lux 不只是個模型,它代表了一個方向:讓計算機能直接響應人的意圖,而不是通過一系列點擊來間接表達。

如果你曾經希望電腦能"替你把事情做了"Lux 把這個想法變成了現實。

https://avoid.overfit.cn/post/084c91d2d2df493f8daa93b25268a6c8

作者:Civil Learning

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.