注意力

標籤

貢獻1

08:40 PM · Nov 22 ,2025

@deephub

暱稱deephub

Last seen

@注意力 / 博客 RSS 訂閱

Sep 24 2025

deephub - 從另一個視角看Transformer：注意力機制就是可微分的k-NN算法

注意力機制聽起來很玄乎，但我們可以把它看作一個軟k-NN算法。查詢向量問："誰跟我最像？"，softmax投票，相似的鄰居們返回一個加權平均值。這就是注意力頭的另外一種解釋：一個可微分的軟k-NN：計算相似度 → softmax轉換為權重 → 對鄰居值求加權平均。通過 1/sqrt(d) 縮放防止softmax在高維時飽和，掩碼決定哪些位置可以互相"看見"（處理因果關係、填充等問題）。

注意力 , 神經網絡 , transformer-model , 人工智能 , 深度學習

收藏評論

Jan 07 2026

deephub - Mosaic：面向超長序列的多GPU注意力分片方案

Transformer的"二次方注意力瓶頸"的問題是老生常談了。這個瓶頸到底卡在哪實際工程裏怎麼繞過去？本文從一個具體問題出發，介紹Mosaic這套多軸注意力分片方案的設計思路。注意力的內存困境注意力機制的計算公式： Attention(Q, K, V) = softmax(QKᵀ / √d) × V 問題出在 QKᵀ 這個矩陣上，它的形狀是 (序列長度 × 序列長度) 。拿150

注意力 , 神經網絡 , 人工智能 , transformer , 深度學習

收藏評論

注意力

@注意力 / 博客 RSS 訂閱

deephub - 從另一個視角看Transformer：注意力機制就是可微分的k-NN算法

deephub - Mosaic：面向超長序列的多GPU注意力分片方案

Product

Company

Support

Company