9 月 20 日,華為昇騰計算業務總裁張迪煊站在華為全聯接大會的舞台上,闡述的重點已從幾天前發佈的新一代芯片性能,轉向一個更核心的議題:如何讓這些軟硬件能力真正為開發者所用。台下,人們捕捉到一個明確的信號:昇騰,正邀請開發者上場。
張迪煊用接下來的時間,清晰地勾勒出了一條清晰的路徑,即通過徹底的共享奠定基礎,通過開放的共創激發活力,最終與開發者共同定義未來的技術範式。
共享:從資源普惠到底層代碼的全面開放
共享,是這場變革的起點。其核心是將昇騰積累多年的技術資產系統性地開放,從底層資源到上層範式全面賦能開發者。通過 CANN 的分層解耦架構,開發者能夠靈活調用從模型、算子、內核以及底層硬件的各層級能力,從根本上降低複雜 AI 應用開發的難度與門檻。
在這一方向上,張迪煊給出了一份明確的開源計劃,包括 9 月底,CANN 全量算子將開源到 GitCode 社區,12 月底,領域加速庫、圖引擎、Ascend C、MindIE 等軟件代碼陸續上倉,實現基礎軟件全棧開源。這意味着,驅動昇騰 AI 算力的核心軟件層,將徹底向開發者敞開。
開放不止於應用層代碼。更具深度的是底層運行時能力的開源,它賦予開發者對硬件資源進行細粒度調度的權限,以滿足對性能有極致要求的場景。定於 9 月底開源的共享內存能力 Share Memory 即是一例,它支持在超節點範圍內將片上內存資源池化共享,並通過 Load and Store 方式通信,大幅降低延遲,同時使相關算子的代碼量減少約 60%,極大提升開發效率。
為滿足多樣化的開發需求,昇騰也體現出廣泛的兼容性。下一代昇騰產品將同時支持 SIMD 與 SIMT 兩種模式。SIMD 擅長處理 Transformer 類模型的規則計算,其新增的融合編程特性可提升 30% 的開發效率;而 SIMT 則更適用於搜索推薦等場景中的邏輯類計算,實測至少能帶來 2.5 倍的性能提升。這種設計為不同技術路徑的開發者提供了更自由的選擇空間。
資源支持也是共享的重要一環。華為承諾每年投入 1500P 算力與 3 萬片開發板,為開發者提供底層資源支持。此外,昇騰還將持續與 Triton、PyTorch、vLLM 等主流開源社區合作,確保其最新功能與優化能及時回饋社區,保持生態同步。
共創:從單向使能到社區生態的雙向互動
共享資源只是第一步,真正的生態活力來源於持續的共創。當開發者不僅能使用代碼,還能反過來影響代碼的演進方向時,一種更深層次的聯結便建立了。這種聯結在代碼、工具與產業實踐的深度融合中取得了初步成果。
在代碼層面,社區貢獻成為生態進化的重要源泉。無問芯穹基於 CATLASS 模板庫開發的 Group GEMM 算子,相比 aclNN 算子,性能提升了 50%。這個由 AI Infra 夥伴和開發者基於 CANN 所共創的成果目前已被合入主分支,為所有開發者共享。
在工具層面,共創機制實現了實踐經驗的持續反哺。開源工具 msProfiler 實現了算法調優的自動化。其知識庫由華為與華南理工、科大訊飛等機構持續共建,並融入了招商銀行等客户的實戰調優參數,最終實現 20 倍的調優效率提升。
在產業創新層面,共創推動了前沿技術的快速驗證與落地。張迪煊重點分享了昇騰與階躍星辰聯合創新的“Attention 與 FFN 分離部署”推理加速方案。該設計基於“以通信換內存”的思路,成功將 Decode 推理吞吐提升 50% 以上。該方案的代碼將於 9 月 30 日開源至 vLLM 社區,為高併發推理場景提供重要技術範本。
共同定義:從標準適配到範式創新的時代機遇
當代碼開源與協同共建成為常態,昇騰生態與開發者的關係正邁向更高層次。在這一階段,開發者不再侷限於在既定框架內進行應用和創新,而是逐步獲得參與定義生態底層規則與未來形態的權利。
這一轉變最根本的體現是 CANN 技術指導委員會的正式成立。這是邁向共同定義的關鍵制度設計。它意味着 CANN 全面走向社區化運作,昇騰核心軟件的未來將由一個融入社區核心貢獻者的組織共同決策。開發者提交的 Pull Request、在社區討論中提出的見解,都可能直接影響技術路線的演進。
當開發者開始在治理層面擁有話語權,共同定義的範疇便自然從程序治理擴展至技術規則的制定。華為將創新的 HiF8 數據格式捐獻至 GCC 全球計算聯盟,並推動 IEEE 啓動標準立項,其本質是將底層技術標準的制定過程向全球開放。當前與利茲大學、清華、復旦、科大訊飛等高校與企業的聯合驗證,正是社區共同打磨、定義下一代數據格式的實踐。這標誌着開發者從過去被動的“標準適配者”,轉變為能夠共同打磨、影響乃至最終決定標準形態的“定義參與者”。
在此基礎上,開發者社區開始主動探索更底層、更本質的編程範式創新。北大楊智老師團隊自研的 TileLang 編程語言已與 CANN 成功對接,提供 Tile-level 的類 Python 編程方式,並將 FlashAttention 算子的代碼量從 500 多行精簡至 80 行,下一步還將支持 Expert 模式和 Beginner 模式,兼顧性能和易用性。這表明,昇騰生態不僅接納上層的應用創新,更願意將社區帶來的全新開發範式沉澱為核心能力。開發者也由此深度參與到塑造未來工具鏈和編程範式的進程中。
從代碼資源的全面共享,到技術路徑的協同共創,再到標準範式的共同定義,華為昇騰所展現的,是一條清晰、系統且逐層深入的開發者賦能路徑,正是沿着這條路徑,開發者得以走到舞台中央。“我們第一次有機會,和全球的開發者站在一起,去定義一個新標準,去開創一個新範式,去引領一個新時代!。” 張迪煊説。
或許從這個意義上看,昇騰與開發者的故事才剛剛開始。