博客 / 詳情

返回

AppAgentx 開源AI手機操控使用分享

項目地址: 地址
GitHub倉庫: 地址
arXiv技術論文:地址

AppAgentx是什麼:

AppAgentX西湖大學推出的一種自我進化式 GUI 代理框架。它通過從執行歷史中學習並抽象出高級動作,來提升智能手機交互的效率和智能性。該框架利用記憶與進化機制實現持續優化,性能在測試中顯著優於現有方法,為智能代理開闢了新方向。

AppAgentx的主要功能:

自動歸納高效操作模式:檢測任務執行中的重複性操作,自動總結為高級別的“一鍵”操作,簡化操作流程。
減少重複計算,提升執行效率:基於記憶和複用執行策略,避免重複推理,讓任務執行更高效。
基於視覺的通用操作能力::依賴屏幕視覺信息進行操作,無需後端API支持,在不同軟件和設備上通用,實現“即插即用”。
支持複雜任務和跨應用操作: :像人類一樣操作各種應用程序,支持複雜的跨應用任務,例如從網頁爬取信息後填入Excel,或在多個軟件之間聯動操作。

AppAgentX的應用場景:

自動化日常操作:自動完成手機設置調整、應用內任務等,減少手動操作。
能助手增強智: 集成到智能助手,幫助用户快速執行復雜任務。
企業流程自動化: 用於企業數據錄入、報表生成等重複性任務,提高效率。
跨應用任務管理: 支持在不同應用間切換和操作,實現跨平台自動化。
輔助特殊人羣: 簡化操作流程,幫助老年人或身體不便者更輕鬆使用手機。
圖片

開始使用

1. LLM 設置和依賴項

本項目使用 LangChain 和 LangGraph 構建代理框架。建議按照其官網建議的安裝方法進行安裝。其他依賴項請使用pip install -r requirements.txt。LLM 配置請在 文件中調整相關設置config.py

2. 數據庫部署與連接

我們使用 Neo4j 作為代理的內存存儲,並利用其 Cypher 查詢語言來方便地檢索節點。向量存儲則使用 Pinecone。請確保在config.py文件中配置了必要的 API 和密鑰。更多信息,請訪問Neo4j 官網和Pinecone 官網。config.py 配置文件
你需要安裝Neo4j 到本地,進行部署和運行,同樣的Pinecone需要API_KEY

3. 屏幕識別與特徵提取部署

為了簡化部署,我們使用 Docker 將屏幕識別和特徵提取服務容器化。有關啓動容器的説明,請參閲後端文件夾中的 README 文件。請注意,這可能需要 Docker 的 GPU 支持;有關配置,請參閲 Docker 官方文檔。這種模塊化方法可以輕鬆替換不同的屏幕解析和特徵提取工具,從而顯著增強模型的可擴展性。如果您需要部署,請參閲當前項目後端文件夾中的README 文件。

4. 啓動演示

要使用此項目,您首先需要配置ADB(Android Debug Bridge)以將您的 Android 設備連接到您的計算機。

設置 ADB 並連接您的設備

3.2 在您的電腦上安裝 ADB

下載並安裝Android Debug Bridge (adb) — 一種命令行工具,可實現您的電腦和 Android 設備之間的通信。

  • 在您的 Android 設備上啓用 USB 調試:
  • 轉到“設置” > “開發人員選項”並啓用“USB 調試”。
  • 使用 USB 數據線將您的設備連接到 PC 。
    推薦使用Qtscrcpy工具代替一下
    圖片
    同樣的可以使用Android studio的工具進行鏈接

    啓動 Gradio

    設置好設備或模擬器後,即可啓動項目。我們使用Gradio作為前端界面。使用以下命令之一啓動演示: python demo.py 使用前提是你已經安裝好了python環境
    或者
    gradio demo.py
    現在,AppAgent就可以使用了!🚀

綜上所述的僅適合你是有CUDA顯卡的人適合. macos可以直接退出了,因為博主踩坑了.
我還在嘗試使用,在macos上測試成功,有待實現.

圖片

user avatar mukewangguanfang 頭像
1 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.