在華為 910B 服務器(通常指搭載 昇騰 Ascend 910B AI 芯片 的 AI 服務器)上,若你想查看服務器終端信息(如設備狀態、NPU 信息、驅動版本、算力使用情況等),可通過以下命令和工具進行操作。這些操作通常在 Linux 系統終端(如 Ubuntu/CentOS) 中執行。

✅ 1. 確認是否安裝 CANN(昇騰計算架構)

昇騰 910B 依賴華為 CANN(Compute Architecture for Neural Networks) 軟件棧。首先確認是否已安裝:

npu-smi info

如果提示 command not found,説明 CANN 未安裝或環境變量未配置。需先安裝 CANN(參考華為官方文檔)。

✅ 2. 查看 NPU(Ascend 910B)設備信息

使用 npu-smi 工具(類似 nvidia-smi):

npu-smi info

輸出示例:

root@suidao:/home/ubuntu# | npu-smi 25.0.rc1.1               Version: 25.0.rc1.1                                                       |
+---------------------------+---------------+---------------------------------------------------+
| NPU   Name                | Health        | Power(W)    Temp(C)           Huge  pages-Usage(page)|
| Chip                      | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM- Usage(MB)        |
+===========================+===============+====================================================+
| 12    910B2C              | Warning       | 90.4        48                0    / 0             |
| 0                         | 0000:00:09.0  | 0           0    / 0          3197     / 65536         |
+===========================+===============+====================================================+
| 15    910B2C              | Warning       | 90.3        44                0    / 0             |
| 0                         | 0000:00:08.0  | 0           0    / 0          3200     / 65536         |
+===========================+===============+====================================================+
+---------------------------+---------------+----------------------------------------------------+
| NPU     Chip              | Process id    | Process name             | Process             memory(MB)      |

該命令可顯示:

  • NPU 芯片型號(910B)
  • 健康狀態(OK / Warning / Critical)
  • 驅動版本(Driver Version)
  • CANN 版本
  • 温度、功耗、利用率

✅ 3. 查看某一張 NPU 卡的使用情況(例如 Card ID = 12)

npu-smi info -t usages -i 12  # 查看 NPU 0 的使用情況

✅ 4. 查看 NPU 卡(邏輯卡 ID 為 0)的主板/板級信息的

npu-smi info -t firmware

人工智能 - 華為發佈算力最強 AI 處理器 Ascend 910 及全場景 AI 計算框架 MindSpore - SegmentFault_#華為


人工智能 - 華為發佈算力最強 AI 處理器 Ascend 910 及全場景 AI 計算框架 MindSpore - SegmentFault_#人工智能_02

✅ 4. **查看健康狀態詳情(關鍵!)

npu-smi info -t health -i 12

該命令會返回每塊 NPU 的詳細健康狀態,包括:

是否存在 ECC 錯誤
温度/電壓是否超限
PCIe 鏈路是否降速
固件是否異常等

人工智能 - 華為發佈算力最強 AI 處理器 Ascend 910 及全場景 AI 計算框架 MindSpore - SegmentFault_#人工智能_03

✅ 5. 查看系統日誌中的 NPU 信息

dmesg | grep -i ascend

dmesg | grep -i npu

可確認內核是否成功加載 Ascend 驅動。

人工智能 - 華為發佈算力最強 AI 處理器 Ascend 910 及全場景 AI 計算框架 MindSpore - SegmentFault_#華為_04


人工智能 - 華為發佈算力最強 AI 處理器 Ascend 910 及全場景 AI 計算框架 MindSpore - SegmentFault_#910B_05


人工智能 - 華為發佈算力最強 AI 處理器 Ascend 910 及全場景 AI 計算框架 MindSpore - SegmentFault_#昇騰_06

從你提供的信息來看,Ascend(昇騰)驅動和軟件棧很可能沒有完全安裝成功,或者存在初始化失敗的問題。以下是關鍵證據和判斷依據:

🔍 核心問題證據

1. dmesg 報錯:UDA 初始化超時
[  168.203490] [ascend] [uda] [ERROR] [uda_wait_all_phy_startup 1340] <npu-exporter:861:911:13> Wait timeout. (dev_num=0; uda_detected_dev_num=2)
  • 含義:系統檢測到 2 個物理 NPU 設備uda_detected_dev_num=2),但 0 個設備成功完成初始化dev_num=0)。
  • 後果:NPU 雖被識別,但無法正常工作,npu-smi 顯示 Health = Warning,且無法用於計算。
2. 虛擬機環境(QEMU/VMware)

你的 dmesg 輸出包含:

QEMU QEMU USB Tablet
VirtualPS/2 VMware VMMouse

→ 説明你運行在 虛擬機中

⚠️ 昇騰 910B 官方不支持在普通虛擬機中直通使用。即使配置了 PCIe 直通(VFIO),也極易因中斷、IOMMU、固件兼容性等問題導致設備初始化失敗。


✅ 判斷結論

項目

狀態

説明

硬件識別

✅ 成功

lspcidmesg 顯示 NPU 設備已加載

驅動加載

⚠️ 部分成功

vnpu 模塊註冊成功,但 UDA 層初始化失敗

NPU 可用性

❌ 不可用

無法執行 MindSpore 或 Ascend C 程序

根本原因

虛擬機環境 + 驅動/固件不兼容

最可能原因


🛠 建議解決方案

✅ 首選方案:遷移到物理服務器(裸金屬環境)
  • 昇騰 910B 官方僅支持在物理機上部署
  • 虛擬機中的 PCIe 直通對 NPU 這類複雜設備支持極差,華為未提供 VMware/QEMU 虛擬化方案。
🔧 若必須在當前環境調試(臨時方案):
  1. 確認 CANN 版本兼容性
  • 你使用的是 CANN 25.0.rc1.1(RC 預發佈版),可能存在 Bug。
  • 建議降級到 CANN 7.0.RC1 或 7.0 正式版(需匹配 MindSpore 版本)。
  1. 檢查驅動與固件版本匹配
npu-smi info -t common      # 查看驅動版本
npu-smi info -t product     # 查看固件版本
  • 確保驅動、CANN、固件三者版本在華為兼容性列表中匹配。
  1. 嘗試重啓驅動
sudo rmmod ascend_npu hccn hisi_hpre
sudo modprobe ascend_npu
  1. 查看詳細錯誤日誌
cat /var/log/npu/slog/host-0/*.log | grep -i "error\|fail\|timeout"

📌 總結

不是“沒安裝”,而是“安裝了但初始化失敗”
根本原因極大概率是:你在虛擬機中運行昇騰 910B,而該芯片不支持虛擬化環境。

強烈建議:將項目遷移到物理服務器(裸金屬)環境重新部署 CANN + MindSpore。

如需進一步幫助(如檢查 CANN 安裝日誌、版本兼容性表),請提供:

  • cat /var/log/npu/installer/*.log
  • pip show mindspore
  • cat /etc/os-release