博客 / 詳情

返回

完整回放|上海創智/TileAI/華為/先進編譯實驗室/AI9Stars深度拆解 AI 編譯器技術實踐

在持續演進的 AI 編譯器技術浪潮中,越來越多的探索正在發生、沉澱與交匯。12 月 27 日,Meet AI Compiler 第八期正是在這樣的背景下與大家如期相見。

本期活動,我們邀請了來自上海創智學院、TileAI 社區、華為海思、先進編譯實驗室、AI9Stars 的 5 位專家,帶來了覆蓋軟件棧設計、算子開發到性能優化的全鏈路分享。講師們結合各自團隊的長期探索,展示了不同技術路線在真實場景中的實現方式與取捨思路,讓抽象概念有了更具體的落腳點。

關注微信公眾號「HyperAI超神經」,後台回覆關鍵字「1227 AI 編譯器」,即可獲取嘉賓完整 PPT。

有人帶着最新的研究成果而來,也有人帶着正在推進的工程問題走進現場。台上的分享精彩紛呈,現場討論同樣熱烈:提問、互動、茶歇間的交流討論,讓話題不斷被追問、補充和延展。分享不再是單向輸出,而是逐漸形成了一場圍繞 AI 編譯器展開的長期對話。大家聊得根本停不下來,這也正是我們 AI Compiler Family 的魅力所在~

活動內容回顧

分享回顧

分享主題: TVM FFI: Open ABI and FFI for Machine Learning Systems

內容簡介: TVM FFI 旨在解決機器學習系統生態割裂與互操作性難題。通過定義開放的 ABI 和 FFI 標準,該項目利用穩定的 C ABI 及 DLPack 實現零拷貝數據傳遞,打通了 PyTorch 等框架與底層編譯器的連接。它支持跨語言高效調用,顯著降低了多平台適配的工程成本。

觀看本場分享,你將瞭解:

  1. 學習 TVM-FFI 通用標準,大幅降低跨語言 Mlsys 開發維護成本
  2. 瞭解並構建兼容未來的模塊化 ML 生態

分享視頻:【2025 Meet AI Compiler】TVM FFI: Open ABI and FFI for Machine Learning Systems\_嗶哩嗶哩\_bilibili

分享主題: TileRT:面向低延遲大模型推理的軟硬件探索

內容簡介: 隨着大模型跨入萬億參數,處理序列跨過百萬 token,模型能力正在不斷打破各項記錄。然而,人們對模型極致計算速度的追求從未停止。一方面許多低延遲場景需要在秒級甚至毫秒級得到響應,如實時決策、博弈等場景;另一方面大模型訓練進入 Agent 時代,超長序列的 rollout 時間成為主要瓶頸。

本報告介紹 TileRT 項目,從 AI 編譯器、runtime、到架構設計的角度,思考如何構建針對極低延遲的大模型計算軟件棧。

觀看本場分享,你將瞭解:

  1. 瞭解大模型低延遲推理場景背景、重要性和未來展望
  2. TileRT 的技術挑戰與實踐分享

分享視頻:【2025 Meet AI Compiler】TileRT:面向低延遲大模型推理的軟硬件探索\_嗶哩嗶哩\_bilibili

分享主題: PyPTO:基於白盒編譯的融合算子開發框架

內容簡介: 本次分享聚焦華為新推出的融合算子開發框架 PyPTO。它基於 Tensor/Tile 編程範式,通過聚焦核內 SRAM 管理、跨平台 PTO 指令集和 MPMD 運行時等技術,結合 Human-In-The-Loop 調優,以白盒編譯方式實現高性能與易用性的統一。

觀看本場分享,你將瞭解:

  1. 掌握原生為 SIMD 架構設計的融合算子開發框架 PyPTO 的設計理念與核心架構
  2. 掌握 PyPTO 聚焦於發揮用户的專家經驗的白盒編譯思想與 Human-In-The-Loop 調優精髓
  3. 掌握利用 PyPTO 提供的可視化工具,快速在昇騰平台開發出高性能融合算子的完整流程

分享視頻:【2025 Meet AI Compiler】PyPTO:基於白盒編譯的融合算子開發框架\_嗶哩嗶哩\_bilibili

分享主題: 面向 Triton 編譯器的編譯優化實踐

內容簡介: 本次分享聚焦面向 Triton 編譯器的優化實踐,系統介紹 Triton 的語言與編譯器結構、生態演進與算子庫開發方法,並深入覆蓋 CPU/GPU/NPU 等多架構的關鍵優化技巧,展示構建高性能統一算子體系的完整路徑。

觀看本場分享,你將瞭解:

  1. Triton 生態的最新進展
  2. Triton 編譯器在多架構(CPU/GPU/NPU)上的關鍵優化技術

分享視頻:【2025 Meet AI Compiler】面向 Triton 編譯器的編譯優化實踐\_嗶哩嗶哩\_bilibili

分享主題: AutoTriton:強化學習驅動的大模型Triton算子優化技術探索

內容簡介: 利用 CUDA 等語言編寫高效內核是性能工程師的專屬領域,隨着 Triton 等編程框架的出現,內核可編程性有着重大飛躍。但開發人員仍然需要手動配置關鍵參數,限制了性能可移植性和廣泛應用。本報告將介紹在大模型算子生成評價基準與模型方面的探索,並展望大模型在算子優化方面的巨大潛力。

觀看本場分享,你將瞭解:

  1. 大模型賦能算子優化的相關工作及最新進展
  2. 大模型在算子優化領域的關鍵技術

分享視頻: 【2025 Meet AI Compiler】AutoTriton:強化學習驅動的大模型 Triton 算子優化技術探索\_嗶哩嗶哩\_bilibili

主辦方及合作伙伴

HyperAI超神經(hyper.ai)作為國際領先的人工智能及高性能計算社區, 旨在通過提供行業資訊報道、數據集加速下載、在線教程演示、熱門模型性能評測、前沿論文推薦、高價值成果解讀、頂會日曆集成等一系列服務,助力全球數據科學及⼈⼯智能⾏業的開發者及愛好者學習、理解、實踐,與社區⼀起構建⼈⼯智能的未來。

訪問官網: https://hyper.ai/

OpenBayes貝式計算是國內領先的高性能計算服務提供商,通過為新一代異構芯片嫁接經典軟件生態及機器學習模型,進而為工業企業及高校科研提供更加快速、易用的數據科學計算產品,其產品已被數十家大型工業場景或頭部科研院所所採用。

訪問官網: https://openbayes.com/

MLC.AI 社區成立於 2022 年 6 月,並由 Apache TVM 主要發明者、機器學習領域著名的青年學者陳天奇,帶領團隊上線了 MLC 線上課程,系統介紹了機器學習編譯的關鍵元素以及核心概念。

2022 年 11 月,在 MLC.AI 社區志願者的共同努力下,首個完整的 TVM 中文文檔上線,併成功託管至 HyperAI超神經官網,進一步為對機器學習編譯感興趣的國內開發者,提供了接觸並學習一門新技術的基礎設置——文檔。

MLC 線上課程: https://mlc.ai/

TVM 中文文檔: https://tvm.hyper.ai/

上海創智學院是匯聚頂尖大學、頭部企業和科研機構聯袂建設的新型人才培養機構。學院堅持「以學生為中心、以前沿為牽引」的培養理念,通過超高規格的師資、超常措施的培養、超凡條件的保障,探索具有中國特色的 AI 領軍人才培養方案,致力於培養中國 AI 領軍人才,打造世界人工智能創新高地。

活動支持

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.