超神經HyperAI 博客

Aug 20 2025

超神經HyperAI - 【TVM 教程】向 TVM 中添加 Codegen

Apache TVM 是一個深度的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 隨着深度學習工作負載所針對的硬件設備數量不斷增加，用户在各種設備上實現高性能所需的知識也在不斷增加。為了讓數據科學家在開發新模型時不必擔心性能問題，硬件廠商或是基於一些常見的深度學習算子，提供 MKLDNN 或 cuDNN

算法 , gpu , 代碼編輯器 , cpu , Python

Aug 13 2025

超神經HyperAI - 【vLLM 學習】Lora With Quantization Inference

vLLM 是一款專為大語言模型推理加速而設計的框架，實現了 KV 緩存內存幾乎零浪費，解決了內存管理瓶頸問題。更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/ *在線運行 vLLM 入門教程：零基礎分步指南源碼examples/offline_inference/lora_with_quantization_inference.py # SPDX-Licen

llm , 內存管理 , kv存儲 , 量化 , Python

Jul 14 2025

超神經HyperAI - 入選ICML 2025，Meta/劍橋/MIT提出全原子擴散Transformer框架，首次實現週期性與非週期性原子系統統一生成

在當今科學研究與工業應用的前沿領域，原子系統三維結構的生成建模正展現出顛覆性潛力，有望徹底重塑新型分子和材料的逆向設計版圖。從精準的結構預測到靈活的條件生成，當前最先進的擴散模型及流匹配模型已在生物分子解析、新材料研發及基於結構的藥物設計等關鍵任務中嶄露頭角，成為科研人員突破技術瓶頸的核心工具。然而，在這一蓬勃發展的領域背後，一個關鍵難題始終制約着技術躍遷——現有模型缺乏跨系統的通用性。儘管所

機器學習 , 資訊 , tensorflow , 人工智能 , 深度學習

Jan 27 2025

超神經HyperAI - 【TVM教程】為 Mobile GPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者：Lianmin Zheng, Eddie Yan 針對特定設備的自動調優對於獲得最佳性能至關重要。本文介紹如何調優整個卷積網絡。 TVM 中 Mobile GPU 的算子實現是以 template 形式編寫的。該 te

編程 , 機器學習 , 人工智能 , 編譯器 , 深度學習

Jan 20 2025

超神經HyperAI - 【TVM教程】為 ARM CPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者：Lianmin Zheng, Zhao Wu, Eddie Yan 針對特定 ARM 設備的自動調優對於獲得最佳性能至關重要，本文介紹如何調優整個卷積網絡。 TVM 中 ARM CPU 的算子實現是以 template

機器學習 , arm , 人工智能 , 編譯器 , 深度學習

Jan 13 2025

超神經HyperAI - 【TVM 教程】為 x86 CPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者：Yao Wang, Eddie Yan 本文介紹如何為 x86 CPU 調優卷積神經網絡。注意，本教程不會在 Windows 或最新版本的 macOS 上運行。如需運行，請將本教程的主體放在 if name == "

gpu , 人工智能 , 編譯器 , 深度學習 , cpu

Jan 08 2025

超神經HyperAI - 【Triton 教程】分組 GEMM

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境，以高效編寫自定義 DNN 計算內核，並能夠在現代 GPU 硬件上以最大吞吐量運行。更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 分組 GEMM 內核通過啓動固定數量的 CTA 來計算一組 gemms。調度是靜態的，並且在設備上完成。 Out: group-ge

機器學習 , 自然語言處理 , 人工智能 , 編譯器 , 深度學習

Jan 06 2025

超神經HyperAI - 【TVM 教程】在 NVIDIA GPU 上調優高性能卷積

Apache TVM 是一個端到端的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者：Lianmin Zheng 本教程介紹如何為 NVIDIA GPU 編寫高性能可調模板。通過在此模板上運行自動調優器，可在許多情況下勝過供應商提供的 cuDNN 庫。注意，本教程不會在 Windows 或最新版本的

機器學習 , gpu , 人工智能 , 編譯器 , 深度學習

Dec 04 2024

超神經HyperAI - 地平線/智源/字節/凌川科技齊聚上海，共探編譯器優化新進展

2023 年，HyperAI超神經在北京、上海、深圳舉辦了 4 場 Meet TVM 線下聚會，聚集了超 1 千位資深從業者及愛好者，逐步建立了豐富的社區生態。 2024 年，HyperAI超神經聚焦 AI 編譯器領域，繼續為業內人士提供開放的交流平台，在今年 7 月舉辦了 Meet AI Compiler 技術沙龍的第 5 期。如今，2024 年接近尾聲，大模型賽道激戰未停，AI 編譯器有哪些新

ai開發 , 人工智能 , 編譯器 , 深度學習 , 編譯器優化

Nov 28 2024

超神經HyperAI - 【Triton 教程】Libdevice (tl_extra.libdevice) 函數

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境，以高效編寫自定義 DNN 計算內核，並能夠在現代 GPU 硬件上以最大吞吐量運行。更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ Triton 可以調用外部庫中的自定義函數。在這個例子中，我們將使用 libdevice 庫在張量上應用 asin 函數。請參考以下鏈

機器學習 , 人工智能 , 編譯器 , 深度學習 , 後端

Nov 26 2024

超神經HyperAI - 【TVM 教程】用 TEDD 進行可視化

Apache TVM 是一個端到端的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 → https://tvm.hyper.ai/ 作者：Yongfeng Gu 本文介紹使用 TEDD（Tensor Expression Debug Display）對張量表達式進行可視化。張量表達式使用原語進行調度，單個原語容易理解，但組合在一起時，就會變得複雜。

編程 , 機器學習 , 人工智能 , 編譯器 , 深度學習

Nov 21 2024

超神經HyperAI - 【Triton 教程】融合注意力 (Fused Attention)

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境，以高效編寫自定義 DNN 計算內核，並能夠在現代 GPU 硬件上以最大吞吐量運行。更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 這是根據 Tri Dao 的 Flash Attention v2 算法的 Triton 實現。致謝：OpenAI 核心團隊特別鳴謝

編程 , gpu , 人工智能 , 編譯器 , 後端

Nov 19 2024

超神經HyperAI - 【TVM 教程】使用元組輸入（Tuple Inputs）進行計算和歸約

Apache TVM 是一個端到端的深度學習編譯框架，適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 → https://tvm.hyper.ai/ 作者：Ziheng Jiang 若要在單個循環中計算具有相同 shape 的多個輸出，或執行多個值的歸約，例如 argmax。這些問題可以通過元組輸入來解決。本教程介紹了 TVM 中元組輸入的用法。 from __fu

編程 , 人工智能 , 編譯器 , 深度學習 , 後端

Nov 14 2024

超神經HyperAI - 【Triton 教程】層標準化

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境，以高效編寫自定義 DNN 計算內核，並能夠在現代 GPU 硬件上以最大吞吐量運行。更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中，你將編寫一個比 PyTorch 實現運行更快的高性能層標準化 (layer normalization) 內核。在此過程

機器學習 , 自然語言處理 , 人工智能 , 編譯器 , 深度學習

Nov 07 2024

超神經HyperAI - 【Triton 教程】低內存 Dropout

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境，以高效編寫自定義 DNN 計算內核，並能夠在現代 GPU 硬件上以最大吞吐量運行。更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中，您將編寫一個內存高效的 Dropout 實現，其狀態將由單個 int32 seed 組成。這與傳統 Dropout 實現不

機器學習 , 自然語言處理 , 人工智能 , 編譯器 , 深度學習

Nov 05 2024

超神經HyperAI - 幾乎覆蓋元素週期表！Meta 發佈開源 OMat24 數據集，含 1.1 億 DFT 計算結果

隨着全球對可再生能源需求的日益增長，儲能技術作為一種能夠將能量儲存起來並在需要時釋放的解決方案，正受到越來越多的關注。但許多再生能源存儲技術初期投資成本高，運維困難，目前仍處於研發或示範階段。針對於此，彼時還未更名的 Facebook 人工智能研究實驗室 (FAIR) 聯合卡耐基梅隆大學，於 2020 年發起了 Open Catalyst Project 項目，其目標是利用 AI 探尋用於可再生

機器學習 , 數據集 , 人工智能 , meta , 深度學習

Oct 31 2024

超神經HyperAI - 【Triton 教程】矩陣乘法

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境，以高效編寫自定義 DNN 計算內核，並能夠在現代 GPU 硬件上以最大吞吐量運行。更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中，您將編寫一個非常簡短的高性能 FP16 矩陣乘法內核，其性能可以與 cuBLAS 或 rocBLAS 相媲美。您將具體學

編程 , gpu , 人工智能 , 編譯器 , 深度學習

Oct 28 2024

超神經HyperAI - 匹配正確率提升187.9%！華中科技大學CGCL實驗室用自監督學習助力膠囊內窺鏡圖像拼接，「天眼」裏也可看腸胃健康

在全球範圍內，腸胃病正成為一個嚴峻的公共衞生挑戰。據世界衞生組織國際癌症研究機構統計，胃病在人羣中的發病率高達 80%，而在中國，腸胃病患者人數更是達到了 1.2 億之多，且呈現出明顯的年輕化趨勢，關注腸胃健康迫在眉睫。在這種情況下，膠囊內窺鏡 (MCCE) 作為一種先進的診斷工具，因其非侵入性、無痛、無交叉感染的特點而被大家廣泛關注。具體而言，MCCE 在膠囊中內置了無線攝影機，患者只需吞下這

機器學習 , 圖片處理 , 人工智能 , 深度學習 , 醫療it

Sep 25 2024

超神經HyperAI - Llama 3.2來了，多模態且開源！AR眼鏡黃仁勳首批體驗，Quest 3S頭顯價格低到離譜

如果説 OpenAI 的 ChatGPT 拉開了「百模大戰」的序幕，那 Meta 的 Ray-Ban Meta 智能眼鏡無疑是觸發「百鏡大戰」的導火索。自去年 9 月在 Meta Connect 2023 開發者大會上首次亮相，短短數月，Ray-Ban Meta 就突破百萬銷量，不僅讓馬克·扎克伯格直呼 Amazing，更促使了谷歌、三星、字節跳動等國內外大廠的紛紛入局！時隔一年，Meta 再次

人工智能 , meta

Jun 20 2024

超神經HyperAI - AI 編譯器技術分享會：上海交大/中科院計算所/微軟亞研/智源，他們來了！

4 場 Meetup、3 個城市、19 位嘉賓、1k+ 行業從業者、累計 100w+ 曝光， 2023 年 AI 編譯器社區小小刷新了一下存在感，我們在非常細分的領域裏找到了最為垂直的開發者和工程師，從 0 到 1 建立起一個個小據點，搭建交流平台、促成企內合作、連通生態上下游。 2024 年雖然已經過半，在大模型持久佔據技術圈「熱搜榜單」的今天，我們將於 7 月 6 日（週六）在中國科學院計算技

機器學習 , 數據集 , 人工智能 , 編譯器 , 深度學習

Nov 18 2022

超神經HyperAI - TVM 中文站正式上線！最全機器學習模型部署「參考書」它來了

內容一覽：近日，由 MLC 社區志願者共同翻譯校對的 TVM 中文文檔正式發佈，現已託管至超神經官網 Hyper.AI。關鍵詞： TVM 開源機器學習編譯器本文首發自微信公眾號：HyperAI超神經面世5年，TVM成備受追捧的深度學習編譯棧 2017 年 8 月，時任華盛頓大學博士生的陳天奇及其團隊成員，正式發佈 TVM。這是一個開源的模型編譯框架，全稱 Tensor Vir

機器學習 , 算法 , 人工智能 , 深度學習 , 學習資料

Nov 14 2022

超神經HyperAI - TorchVision Transforms API 大升級，支持目標檢測、實例/語義分割及視頻類任務

內容導讀：TorchVision Transforms API 擴展升級，現已支持目標檢測、實例及語義分割以及視頻類任務。新 API 尚處於測試階段，開發者可以試用體驗。本文首發自微信公眾號：PyTorch 開發者社區 TorchVision 現已針對 Transforms API 進行了擴展，具體如下：除用於圖像分類外，現在還可以用其進行目標檢測、實例及語義分割以及視頻分類等任務；

API , pytorch , 人工智能 , transform

超神經HyperAI 博客

博客 / 列表

超神經HyperAI - 【TVM 教程】向 TVM 中添加 Codegen

超神經HyperAI - 【vLLM 學習】Lora With Quantization Inference

超神經HyperAI - 入選ICML 2025，Meta/劍橋/MIT提出全原子擴散Transformer框架，首次實現週期性與非週期性原子系統統一生成

超神經HyperAI - 【TVM教程】為 Mobile GPU 自動調優卷積網絡

超神經HyperAI - 【TVM教程】為 ARM CPU 自動調優卷積網絡

超神經HyperAI - 【TVM 教程】為 x86 CPU 自動調優卷積網絡

超神經HyperAI - 【Triton 教程】分組 GEMM

超神經HyperAI - 【TVM 教程】在 NVIDIA GPU 上調優高性能卷積

超神經HyperAI - 地平線/智源/字節/凌川科技齊聚上海，共探編譯器優化新進展

超神經HyperAI - 【Triton 教程】Libdevice (tl_extra.libdevice) 函數

超神經HyperAI - 【TVM 教程】用 TEDD 進行可視化

超神經HyperAI - 【Triton 教程】融合注意力 (Fused Attention)

超神經HyperAI - 【TVM 教程】使用元組輸入（Tuple Inputs）進行計算和歸約

超神經HyperAI - 【Triton 教程】層標準化

超神經HyperAI - 【Triton 教程】低內存 Dropout

超神經HyperAI - 幾乎覆蓋元素週期表！Meta 發佈開源 OMat24 數據集，含 1.1 億 DFT 計算結果

超神經HyperAI - 【Triton 教程】矩陣乘法

超神經HyperAI - 匹配正確率提升187.9%！華中科技大學CGCL實驗室用自監督學習助力膠囊內窺鏡圖像拼接，「天眼」裏也可看腸胃健康

超神經HyperAI - Llama 3.2來了，多模態且開源！AR眼鏡黃仁勳首批體驗，Quest 3S頭顯價格低到離譜

超神經HyperAI - AI 編譯器技術分享會：上海交大/中科院計算所/微軟亞研/智源，他們來了！

超神經HyperAI - TVM 中文站正式上線！最全機器學習模型部署「參考書」它來了

超神經HyperAI - TorchVision Transforms API 大升級，支持目標檢測、實例/語義分割及視頻類任務

Product

Company

Support

Company