在近期的項目中,我們觀察到“diffusion模型 GPU 利用率低”的問題。這直接影響了模型的推理速度和整體性能,必須通過深度分析和優化來解決這一問題。以下是我們針對這一問題的詳細記錄和解決方案。 用户原始需求 我們的用户希望能夠提升 diffusion 模型在 GPU 上的運行效率,以加速圖像生成和處理的速度,同時也期望能夠優化資源消耗。 演進
併發用户數:是指模擬用户實際去 請求的用户數量,模擬每個人去操作。 吞吐量:可以是 流量 也 可以是業務量。 持續時間1分鐘 10個用户併發,按每秒1個線程數來計算 請求數= 10用户×60分鐘×1個線程= 600次請求。 吞吐量=600個請求。 吞吐率=600個請求÷1分鐘=60個請求/秒 持續時間1分鐘 20個用户併發,按每秒1個線程來計算