一、引言: HPC 離不開 InfiniBand 網絡是高性能計算集羣的“神經系統”——它決定了計算資源的協同效率、應用的可擴展性,以及最終的科學發現速度。在眾多網絡技術中,InfiniBand(IB)憑藉其超低延遲、高帶寬和硬件級卸載能力,已成為HPC領域的黃金標準。據TOP500最新統計,超過65%的頂級超算系統(包括Frontier、Fugaku等)均採用Infini
Slurm (Simple Linux Utility for Resource Management, http://slurm.schedmd.com/ )是一個開源的、具有容錯性、高度可擴展的集羣管理和作業調度系統,適用於大型和小型 Linux 集羣。Slurm 不需要對內核進行修改,它的運行方式相對獨立以避免節點相互干擾,提高運行效率。 作為集羣工作負載管理器, S
在高性能計算(HPC)的世界裏,除了編寫高效的代碼,構建一個穩定、可復現的運行環境同樣至關重要。作為 HPC 平台的技術人員,我們發現超過 50% 的用户工單都與環境配置有關。 本文將為你詳細拆解 Conda 在 HPC 環境下的最佳實踐,助你從“環境配置的苦海”中脱身,專注於科研本身。 一、Conda 與 HPC:為何它是你的必備技能? 1. 什麼是
一、 Slurm的核心作用 Slurm 是一個開源的、高度可擴展的工作負載調度器,專為高性能計算集羣設計。它的名字是 Simple Linux Utility for Resource Management 的縮寫,但其功能遠不止“簡單”二字。在現代HPC系統中,Slurm扮演着“集羣大腦”或“數字神經中樞”的角色,其主要核心作用包括: 資源分配:管理和分配