tag 注意力

標籤
貢獻1
26
08:40 PM · Nov 22 ,2025

@注意力 / 博客 RSS 訂閱

deephub - 從另一個視角看Transformer:注意力機制就是可微分的k-NN算法

注意力機制聽起來很玄乎,但我們可以把它看作一個軟k-NN算法。查詢向量問:"誰跟我最像?",softmax投票,相似的鄰居們返回一個加權平均值。這就是注意力頭的另外一種解釋: 一個可微分的軟k-NN:計算相似度 → softmax轉換為權重 → 對鄰居值求加權平均。 通過 1/sqrt(d) 縮放防止softmax在高維時飽和,掩碼決定哪些位置可以互相"看見"(處理因果關係、填充等問題)。

注意力 , 神經網絡 , transformer-model , 人工智能 , 深度學習

收藏 評論

deephub - Mosaic:面向超長序列的多GPU注意力分片方案

Transformer的"二次方注意力瓶頸"的問題是老生常談了。這個瓶頸到底卡在哪實際工程裏怎麼繞過去?本文從一個具體問題出發,介紹Mosaic這套多軸注意力分片方案的設計思路。 注意力的內存困境 注意力機制的計算公式: Attention(Q, K, V) = softmax(QKᵀ / √d) × V 問題出在 QKᵀ 這個矩陣上,它的形狀是 (序列長度 × 序列長度) 。 拿150

注意力 , 神經網絡 , 人工智能 , transformer , 深度學習

收藏 評論