一文了解padding在深度學習模型中重要嗎?
本文來自公眾號CV技術(shù)指南的技術(shù)總結(jié)系列
歡迎關(guān)注CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
前言
本文介紹了兩個實驗,展示了padding在深度學習模型中的影響。
實驗一
卷積是平移等變的:將輸入圖像平移 1 個像素,輸出圖像也平移 1 個像素(見圖 1)。如果我們對輸出應(yīng)用全局平均池化(即對所有像素值求和),我們會得到一個平移不變模型:無論我們?nèi)绾纹揭戚斎雸D像,輸出都將保持不變。
在 PyTorch 中,模型如下所示:y = torch.sum(conv(x), dim=(2, 3)) 輸入 x,輸出 y。
圖 1:頂部:包含一個白色像素的輸入圖像(原始和 1 個像素移位版本)。中:卷積核。底部:輸出圖像及其像素總和。
是否可以使用此模型來檢測圖像中像素的絕對位置?
對于像所描述的那樣的平移不變模型,它應(yīng)該是不可能的。
讓我們訓練這個模型對包含單個白色像素的圖像進行分類:如果像素在左上角,它應(yīng)該輸出 1,否則輸出 0。訓練很快收斂,在一些圖像上測試二元分類器表明它能夠完美地檢測像素位置(見圖 2)。
圖 2:頂部:輸入圖像和分類結(jié)果。底部:輸出圖像和像素總和。
模型如何學習對絕對像素位置進行分類?這僅可能由于我們使用的填充類型:
圖 3 顯示了經(jīng)過一些 epoch 訓練后的卷積核
當使用“same”填充(在許多模型中使用)時,內(nèi)核中心在所有圖像像素上移動(隱式假設(shè)圖像外的像素值為 0)
這意味著內(nèi)核的右列和底行永遠不會“接觸”圖像中的左上像素(否則內(nèi)核中心將不得不移出圖像)
但是,當在圖像上移動時,內(nèi)核的右列和/或底行會接觸所有其他像素
我們的模型利用了像素處理方式的差異
只有正(黃色)內(nèi)核值應(yīng)用于左上白色像素,從而只產(chǎn)生正值,這給出了正和
對于所有其他像素位置,還應(yīng)用了強負內(nèi)核值(藍色、綠色),這給出了負和
圖 3:3×3 卷積核。
盡管模型應(yīng)該是平移不變的,但事實并非如此。問題發(fā)生在由所使用的填充類型引起的圖像邊界附近。
實驗二
輸入像素對輸出的影響是否取決于其絕對位置?
讓我們再次嘗試使用只有一個白色像素的黑色圖像。該圖像被送入由一個卷積層組成的神經(jīng)網(wǎng)絡(luò)(所有內(nèi)核權(quán)重設(shè)置為 1,偏置項設(shè)置為 0)。輸入像素的影響是通過對輸出圖像的像素值求和來衡量的。“valid”填充意味著完整的內(nèi)核保持在輸入圖像的邊界內(nèi),而“same”填充已經(jīng)定義。
圖 4 顯示了每個輸入像素的影響。對于“valid”填充,結(jié)果如下所示:
內(nèi)核接觸圖像角點的位置只有一個,角點像素的值為 1 反映了這一點
對于每個邊緣像素,3×3 內(nèi)核在 3 個位置接觸該像素
對于一般位置的像素,有 9 個核位置,像素和核接觸
圖 4:將單個卷積層應(yīng)用于 10×10 圖像。左:“same”填充。右:“valid”填充。
邊界附近像素對輸出的影響遠低于中心像素,當相關(guān)圖像細節(jié)靠近邊界時,這可能會使模型失敗。對于“same相同”填充,效果不那么嚴重,但從輸入像素到輸出的“路徑”較少。
最后的實驗(見圖 5)顯示了當從 28×28 輸入圖像(例如,來自 MNIST 數(shù)據(jù)集的圖像)開始并將其輸入具有 5 個卷積層的神經(jīng)網(wǎng)絡(luò)(例如,一個簡單的 MNIST 分類器可能看起來像這樣)。特別是對于“valid”填充,現(xiàn)在存在模型幾乎完全忽略的大圖像區(qū)域。
圖 5:將五個卷積層應(yīng)用于 28×28 圖像。左:“same”填充。右:“valid”填充。
結(jié)論
這兩個實驗表明,填充的選擇很重要,一些糟糕的選擇可能會導致模型性能低下。有關(guān)更多詳細信息,請參閱以下論文,其中還提出了如何解決問題的解決方案:
1. MIND THE PAD – CNNS CAN DEVELOP BLIND SPOTS
2. On Translation Invariance in CNNs: Convolutional Layers can Exploit Absolute Spatial Location
作者:Harald Scheidl
編譯:CV技術(shù)指南
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
-
8月14日立即報名>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
精彩回顧立即查看>> OFweek 2025 具身機器人動力電池技術(shù)應(yīng)用大會
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達成為全球首家市值破4萬億美元的公司
- 2 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長期合作,共探AI智駕
- 5 具身智能泡沫爭議下,華映資本尋找「穿越周期者」
- 6 中國平安們欲靠AI守“陣地”
- 7 官宣:智元機器人借殼上市,A股人形機器人第一股!
- 8 華為讓渡“三界”銷售主導權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實現(xiàn)突圍,國產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進化