Leaky ReLU和ReLU的關係詳情 - Leaky ReLU和ReLU的關係,激活函數,歸一化,Dynamic,深度學習,人工智能技術領航博主博客

論文提出了動態ReLU，能夠根據輸入動態地調整對應的分段激活函數，與ReLU及其變種對比，僅需額外的少量計算即可帶來大幅的性能提升，能無縫嵌入到當前的主流模型中

論文: Dynamic ReLU

論文地址：https://arxiv.org/abs/2003.10027
論文代碼：https://github.com/Islanna/DynamicReLU

Introduction

ReLU是深度學習中很重要的里程碑，簡單但強大，能夠極大地提升神經網絡的性能。目前也有很多ReLU的改進版，比如Leaky ReLU和 PReLU，而這些改進版和原版的最終參數都是固定的。所以論文自然而然地想到，如果能夠根據輸入特徵來調整ReLU的參數可能會更好。

\(f_{\theta{(x)}}(x)\)，參數由超函數\(\theta{(x)}\)根據輸入\(x\)得到。超函數\(\theta(x)\)綜合輸入的各維度上下文來自適應激活函數\(f_{\theta{(x)}}(x)\)，能夠在帶來少量額外計算的情況下，顯著地提高網絡的表達能力。另外，論文提供了三種形態的DY-ReLU，在空間位置和維度上有不同的共享機制。不同形態的DY-ReLU適用於不同的任務，論文也通過實驗驗證，DY-ReLU在關鍵點識別和圖像分類上均有不錯的提升。

Definition and Implementation of Dynamic ReLU

Definition

\(y=max\{x, 0\}\)，\(x\)為輸入向量，對於輸入的\(c\)維特徵\(x_c\)，激活值計算為\(y_c=max\{x_c, 0\}\)。ReLU可統一表示為分段線性函數\(y_c=max_k\{a^k_c x_c+b^k_c\}\)，論文基於這個分段函數擴展出動態ReLU，基於所有的輸入\(x=\{x_c\}\)自適應\(a^k_c\),\(b^k_c\)：

\((a^k_c, b^k_c)\)為超函數\(\theta(x)\)的輸出：

\(K\)為函數數量，\(C\)為維度數，激活參數\((a^k_c, b^k_c)\)不僅與\(x_c\)相關，也與\(x_{j\ne c}\)相關。

Implementation of hyper function \(\theta(x)\)

\(C\times H\times W\)的輸入\(x\)，首先使用全局平均池化進行壓縮，然後使用兩個全連接層(中間包含ReLU)進行處理，最後接一個歸一化層將結果約束在-1和1之間，歸一化層使用\(2\sigma(x) - 1\)，\(\sigma\)為Sigmoid函數。子網共輸出\(2KC\)個元素，分別對應\(a^{1:K}_{1:C}\)和\(b^{1:K}_{1:C}\)的殘差，最終的輸出為初始值和殘差之和：

\(\alpha^k\)和\(\beta^k\)為\(a^k_c\)和\(b^k_c\)的初始值，\(\lambda_a\)和\(\lambda_b\)是用來控制殘差大小的標量。對於\(K=2\)的情況，默認參數為\(\alpha^1=1\)，\(\alpha^2=\beta^1=\beta^2=0\)，即為原版ReLU，標量默認為\(\lambda_a=1.0\)，\(\lambda_b=0.5\)。

Relation to Prior Work

\(K=1\)，偏置\(b^1_c=0\)時，則等價於SE模塊。另外DY-ReLU也可以是一個動態且高效的Maxout算子，相當於將Maxout的\(K\)個卷積轉換為\(K\)個動態的線性變化，然後同樣地輸出最大值。

Variations of Dynamic ReLU

論文提供了三種形態的DY-ReLU，在空間位置和維度上有不同的共享機制：

DY-ReLU-A

\(2K\)個參數，計算最簡單，表達能力也最弱。

DY-ReLU-B

\(2KC\)個參數。

DY-ReLU-C

\(max_k\{a^k_{c,h,w} x_{c, h, w} + b^k_{c,h,w} \}\)。雖然表達能力很強，但需要輸出的參數(\(2KCHW\))太多了，像前面那要直接用全連接層輸出會帶來過多的額外計算。為此論文進行了改進，計算如圖2c所示，將空間位置分解到另一個attention分支，最後將維度參數\([a^{1:K}_{1:C}, b^{1:K}_{1:C}]\)乘以空間位置attention\([\pi_{1:HW}]\)。attention的計算簡單地使用\(1\times 1\)卷積和歸一化方法，歸一化使用了帶約束的softmax函數：

\(\gamma\)用於將attention平均，論文設為\(\frac{HW}{3}\)，\(\tau\)為温度，訓練前期設較大的值(10)用於防止attention過於稀疏。

Experimental Results

圖像分類對比實驗。

關鍵點識別對比實驗。

與ReLU在ImageNet上進行多方面對比。

與其它激活函數進行實驗對比。

可視化DY-ReLU在不同block的輸入輸出以及斜率變化，可看出其動態性。

Conclustion

\(max_{1\le k \le K}\)的存在，可能性和效果比APReLU更大。

本文章為轉載內容，我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題，歡迎原作者聯繫我們進行內容更正或刪除文章。

技術領航博主博客

技術領航博主博客

博客 / 詳情