博客 / 列表

超神經HyperAI - 【TVM 教程】向 TVM 中添加 Codegen

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 隨着深度學習工作負載所針對的硬件設備數量不斷增加,用户在各種設備上實現高性能所需的知識也在不斷增加。為了讓數據科學家在開發新模型時不必擔心性能問題,硬件廠商或是基於一些常見的深度學習算子,提供 MKLDNN 或 cuDNN

算法 , gpu , 代碼編輯器 , cpu , Python

超神經HyperAI - 【vLLM 學習】Lora With Quantization Inference

vLLM 是一款專為大語言模型推理加速而設計的框架,實現了 KV 緩存內存幾乎零浪費,解決了內存管理瓶頸問題。 更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/ *在線運行 vLLM 入門教程:零基礎分步指南 源碼examples/offline_inference/lora_with_quantization_inference.py # SPDX-Licen

llm , 內存管理 , kv存儲 , 量化 , Python

超神經HyperAI - 入選ICML 2025,Meta/劍橋/MIT提出全原子擴散Transformer框架,首次實現週期性與非週期性原子系統統一生成

在當今科學研究與工業應用的前沿領域,原子系統三維結構的生成建模正展現出顛覆性潛力,有望徹底重塑新型分子和材料的逆向設計版圖。從精準的結構預測到靈活的條件生成,當前最先進的擴散模型及流匹配模型已在生物分子解析、新材料研發及基於結構的藥物設計等關鍵任務中嶄露頭角,成為科研人員突破技術瓶頸的核心工具。 然而,在這一蓬勃發展的領域背後,一個關鍵難題始終制約着技術躍遷——現有模型缺乏跨系統的通用性。 儘管所

機器學習 , 資訊 , tensorflow , 人工智能 , 深度學習

超神經HyperAI - 【TVM教程】為 Mobile GPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者:Lianmin Zheng, Eddie Yan 針對特定設備的自動調優對於獲得最佳性能至關重要。本文介紹如何調優整個卷積網絡。 TVM 中 Mobile GPU 的算子實現是以 template 形式編寫的。該 te

編程 , 機器學習 , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 【TVM教程】為 ARM CPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者:Lianmin Zheng, Zhao Wu, Eddie Yan 針對特定 ARM 設備的自動調優對於獲得最佳性能至關重要,本文介紹如何調優整個卷積網絡。 TVM 中 ARM CPU 的算子實現是以 template

機器學習 , arm , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 【TVM 教程】為 x86 CPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者:Yao Wang, Eddie Yan 本文介紹如何為 x86 CPU 調優卷積神經網絡。 注意,本教程不會在 Windows 或最新版本的 macOS 上運行。如需運行,請將本教程的主體放在 if name == "

gpu , 人工智能 , 編譯器 , 深度學習 , cpu

超神經HyperAI - 【Triton 教程】分組 GEMM

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 分組 GEMM 內核通過啓動固定數量的 CTA 來計算一組 gemms。調度是靜態的,並且在設備上完成。 Out: group-ge

機器學習 , 自然語言處理 , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 【TVM 教程】在 NVIDIA GPU 上調優高性能卷積

Apache TVM 是一個端到端的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者:Lianmin Zheng 本教程介紹如何為 NVIDIA GPU 編寫高性能可調模板。通過在此模板上運行自動調優器,可在許多情況下勝過供應商提供的 cuDNN 庫。 注意,本教程不會在 Windows 或最新版本的

機器學習 , gpu , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 地平線/智源/字節/凌川科技齊聚上海,共探編譯器優化新進展

2023 年,HyperAI超神經在北京、上海、深圳舉辦了 4 場 Meet TVM 線下聚會,聚集了超 1 千位資深從業者及愛好者,逐步建立了豐富的社區生態。 2024 年,HyperAI超神經聚焦 AI 編譯器領域,繼續為業內人士提供開放的交流平台,在今年 7 月舉辦了 Meet AI Compiler 技術沙龍的第 5 期。如今,2024 年接近尾聲,大模型賽道激戰未停,AI 編譯器有哪些新

ai開發 , 人工智能 , 編譯器 , 深度學習 , 編譯器優化

超神經HyperAI - 【Triton 教程】Libdevice (tl_extra.libdevice) 函數

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ Triton 可以調用外部庫中的自定義函數。在這個例子中,我們將使用 libdevice 庫在張量上應用 asin 函數。請參考以下鏈

機器學習 , 人工智能 , 編譯器 , 深度學習 , 後端

超神經HyperAI - 【TVM 教程】用 TEDD 進行可視化

Apache TVM 是一個端到端的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 → https://tvm.hyper.ai/ 作者:Yongfeng Gu 本文介紹使用 TEDD(Tensor Expression Debug Display)對張量表達式進行可視化。 張量表達式使用原語進行調度,單個原語容易理解,但組合在一起時,就會變得複雜。

編程 , 機器學習 , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 【Triton 教程】融合注意力 (Fused Attention)

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 這是根據 Tri Dao 的 Flash Attention v2 算法的 Triton 實現。致謝:OpenAI 核心團隊 特別鳴謝

編程 , gpu , 人工智能 , 編譯器 , 後端

超神經HyperAI - 【TVM 教程】使用元組輸入(Tuple Inputs)進行計算和歸約

Apache TVM 是一個端到端的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 → https://tvm.hyper.ai/ 作者:Ziheng Jiang 若要在單個循環中計算具有相同 shape 的多個輸出,或執行多個值的歸約,例如 argmax。這些問題可以通過元組輸入來解決。 本教程介紹了 TVM 中元組輸入的用法。 from __fu

編程 , 人工智能 , 編譯器 , 深度學習 , 後端

超神經HyperAI - 【Triton 教程】層標準化

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中,你將編寫一個比 PyTorch 實現運行更快的高性能層標準化 (layer normalization) 內核。 在此過程

機器學習 , 自然語言處理 , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 【Triton 教程】低內存 Dropout

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中,您將編寫一個內存高效的 Dropout 實現,其狀態將由單個 int32 seed 組成。這與傳統 Dropout 實現不

機器學習 , 自然語言處理 , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 幾乎覆蓋元素週期表!Meta 發佈開源 OMat24 數據集,含 1.1 億 DFT 計算結果

隨着全球對可再生能源需求的日益增長,儲能技術作為一種能夠將能量儲存起來並在需要時釋放的解決方案,正受到越來越多的關注。但許多再生能源存儲技術初期投資成本高,運維困難,目前仍處於研發或示範階段。 針對於此,彼時還未更名的 Facebook 人工智能研究實驗室 (FAIR) 聯合卡耐基梅隆大學,於 2020 年發起了 Open Catalyst Project 項目,其目標是利用 AI 探尋用於可再生

機器學習 , 數據集 , 人工智能 , meta , 深度學習

超神經HyperAI - 【Triton 教程】矩陣乘法

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中,您將編寫一個非常簡短的高性能 FP16 矩陣乘法內核,其性能可以與 cuBLAS 或 rocBLAS 相媲美。 您將具體學

編程 , gpu , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - 匹配正確率提升187.9%!華中科技大學CGCL實驗室用自監督學習助力膠囊內窺鏡圖像拼接,「天眼」裏也可看腸胃健康

在全球範圍內,腸胃病正成為一個嚴峻的公共衞生挑戰。據世界衞生組織國際癌症研究機構統計,胃病在人羣中的發病率高達 80%,而在中國,腸胃病患者人數更是達到了 1.2 億之多,且呈現出明顯的年輕化趨勢,關注腸胃健康迫在眉睫。 在這種情況下,膠囊內窺鏡 (MCCE) 作為一種先進的診斷工具,因其非侵入性、無痛、無交叉感染的特點而被大家廣泛關注。具體而言,MCCE 在膠囊中內置了無線攝影機,患者只需吞下這

機器學習 , 圖片處理 , 人工智能 , 深度學習 , 醫療it

超神經HyperAI - Llama 3.2來了,多模態且開源!AR眼鏡黃仁勳首批體驗,Quest 3S頭顯價格低到離譜

如果説 OpenAI 的 ChatGPT 拉開了「百模大戰」的序幕,那 Meta 的 Ray-Ban Meta 智能眼鏡無疑是觸發「百鏡大戰」的導火索。自去年 9 月在 Meta Connect 2023 開發者大會上首次亮相,短短數月,Ray-Ban Meta 就突破百萬銷量,不僅讓馬克·扎克伯格直呼 Amazing,更促使了谷歌、三星、字節跳動等國內外大廠的紛紛入局! 時隔一年,Meta 再次

人工智能 , meta

超神經HyperAI - AI 編譯器技術分享會:上海交大/中科院計算所/微軟亞研/智源,他們來了!

4 場 Meetup、3 個城市、19 位嘉賓、1k+ 行業從業者、累計 100w+ 曝光, 2023 年 AI 編譯器社區小小刷新了一下存在感,我們在非常細分的領域裏找到了最為垂直的開發者和工程師,從 0 到 1 建立起一個個小據點,搭建交流平台、促成企內合作、連通生態上下游。 2024 年雖然已經過半,在大模型持久佔據技術圈「熱搜榜單」的今天,我們將於 7 月 6 日(週六)在中國科學院計算技

機器學習 , 數據集 , 人工智能 , 編譯器 , 深度學習

超神經HyperAI - TVM 中文站正式上線!最全機器學習模型部署「參考書」它來了

內容一覽: 近日,由 MLC 社區志願者共同翻譯校對的 TVM 中文文檔正式發佈,現已託管至超神經官網 Hyper.AI。 關鍵詞: TVM 開源 機器學習編譯器 本文首發自微信公眾號:HyperAI超神經 面世5年,TVM成備受追捧的深度學習編譯棧 2017 年 8 月,時任華盛頓大學博士生的陳天奇及其團隊成員,正式發佈 TVM。 這是一個開源的模型編譯框架,全稱 Tensor Vir

機器學習 , 算法 , 人工智能 , 深度學習 , 學習資料

超神經HyperAI - TorchVision Transforms API 大升級,支持目標檢測、實例/語義分割及視頻類任務

內容導讀:TorchVision Transforms API 擴展升級,現已支持目標檢測、實例及語義分割以及視頻類任務。新 API 尚處於測試階段,開發者可以試用體驗。 本文首發自微信公眾號:PyTorch 開發者社區 TorchVision 現已針對 Transforms API 進行了擴展, 具體如下: 除用於圖像分類外,現在還可以用其進行目標檢測、實例及語義分割以及視頻分類等任務;

API , pytorch , 人工智能 , transform