前段時間我們使用單台 DGX Spark 測試了 gpt-oss-120b 模型性能。今天,我們通過一根 200 Gbps 帶寬的 QSFP 線纜連接兩台 DGX Spark,並測試了一個參數更大的模型:Qwen3-235B,看看性能如何。
整體測試下來,單用户生成速度為 10 tokens/s,但預填充速度還不錯,單用户可達 1000 tps,詳細測試數據如下:
生成速度
知識庫應用(輸入4K)
知識庫應用(輸入4K)方面,單用户生成速度也有 10 tokens/s,首字時延在 4s 左右。
以下是實際測試過程:
https://www.bilibili.com/video/BV1eGyhBDEAk/?aid=115462310465...