論文提出了動態ReLU,能夠根據輸入動態地調整對應的分段激活函數,與ReLU及其變種對比,僅需額外的少量計算即可帶來大幅的性能提升,能無縫嵌入到當前的主流模型中
論文: Dynamic ReLU
- 論文地址:https://arxiv.org/abs/2003.10027
- 論文代碼:https://github.com/Islanna/DynamicReLU
Introduction
ReLU是深度學習中很重要的里程碑,簡單但強大,能夠極大地提升神經網絡的性能。目前也有很多ReLU的改進版,比如Leaky ReLU和 PReLU,而這些改進版和原版的最終參數都是固定的。所以論文自然而然地想到,如果能夠根據輸入特徵來調整ReLU的參數可能會更好。
\(f_{\theta{(x)}}(x)\),參數由超函數\(\theta{(x)}\)根據輸入\(x\)得到。超函數\(\theta(x)\)綜合輸入的各維度上下文來自適應激活函數\(f_{\theta{(x)}}(x)\),能夠在帶來少量額外計算的情況下,顯著地提高網絡的表達能力。另外,論文提供了三種形態的DY-ReLU,在空間位置和維度上有不同的共享機制。不同形態的DY-ReLU適用於不同的任務,論文也通過實驗驗證,DY-ReLU在關鍵點識別和圖像分類上均有不錯的提升。
Definition and Implementation of Dynamic ReLU
Definition
\(y=max\{x, 0\}\),\(x\)為輸入向量,對於輸入的\(c\)維特徵\(x_c\),激活值計算為\(y_c=max\{x_c, 0\}\)。ReLU可統一表示為分段線性函數\(y_c=max_k\{a^k_c x_c+b^k_c\}\),論文基於這個分段函數擴展出動態ReLU,基於所有的輸入\(x=\{x_c\}\)自適應\(a^k_c\),\(b^k_c\):
\((a^k_c, b^k_c)\)為超函數\(\theta(x)\)的輸出:
\(K\)為函數數量,\(C\)為維度數,激活參數\((a^k_c, b^k_c)\)不僅與\(x_c\)相關,也與\(x_{j\ne c}\)相關。
Implementation of hyper function \(\theta(x)\)
\(C\times H\times W\)的輸入\(x\),首先使用全局平均池化進行壓縮,然後使用兩個全連接層(中間包含ReLU)進行處理,最後接一個歸一化層將結果約束在-1和1之間,歸一化層使用\(2\sigma(x) - 1\),\(\sigma\)為Sigmoid函數。子網共輸出\(2KC\)個元素,分別對應\(a^{1:K}_{1:C}\)和\(b^{1:K}_{1:C}\)的殘差,最終的輸出為初始值和殘差之和:
\(\alpha^k\)和\(\beta^k\)為\(a^k_c\)和\(b^k_c\)的初始值,\(\lambda_a\)和\(\lambda_b\)是用來控制殘差大小的標量。對於\(K=2\)的情況,默認參數為\(\alpha^1=1\),\(\alpha^2=\beta^1=\beta^2=0\),即為原版ReLU,標量默認為\(\lambda_a=1.0\),\(\lambda_b=0.5\)。
Relation to Prior Work
\(K=1\),偏置\(b^1_c=0\)時,則等價於SE模塊。另外DY-ReLU也可以是一個動態且高效的Maxout算子,相當於將Maxout的\(K\)個卷積轉換為\(K\)個動態的線性變化,然後同樣地輸出最大值。
Variations of Dynamic ReLU
論文提供了三種形態的DY-ReLU,在空間位置和維度上有不同的共享機制:
DY-ReLU-A
\(2K\)個參數,計算最簡單,表達能力也最弱。
DY-ReLU-B
\(2KC\)個參數。
DY-ReLU-C
\(max_k\{a^k_{c,h,w} x_{c, h, w} + b^k_{c,h,w} \}\)。雖然表達能力很強,但需要輸出的參數(\(2KCHW\))太多了,像前面那要直接用全連接層輸出會帶來過多的額外計算。為此論文進行了改進,計算如圖2c所示,將空間位置分解到另一個attention分支,最後將維度參數\([a^{1:K}_{1:C}, b^{1:K}_{1:C}]\)乘以空間位置attention\([\pi_{1:HW}]\)。attention的計算簡單地使用\(1\times 1\)卷積和歸一化方法,歸一化使用了帶約束的softmax函數:
\(\gamma\)用於將attention平均,論文設為\(\frac{HW}{3}\),\(\tau\)為温度,訓練前期設較大的值(10)用於防止attention過於稀疏。
Experimental Results
圖像分類對比實驗。
關鍵點識別對比實驗。
與ReLU在ImageNet上進行多方面對比。
與其它激活函數進行實驗對比。
可視化DY-ReLU在不同block的輸入輸出以及斜率變化,可看出其動態性。
Conclustion
\(max_{1\le k \le K}\)的存在,可能性和效果比APReLU更大。