PyTorch教程7.2之圖像卷積

2512958 2023-06-05 | pdf | 1.28 MB | 次下載 | 免費

資料介紹

現在我們了解了卷積層在理論上是如何工作的，我們準備看看它們在實踐中是如何工作的。基于我們將卷積神經網絡作為探索圖像數據結構的有效架構的動機，我們堅持使用圖像作為我們的運行示例。

						import torch
from torch import nn
from d2l import torch as d2l

						 

						from mxnet import autograd, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import tensorflow as tf
from d2l import tensorflow as d2l

7.2.1. 互相關運算

回想一下，嚴格來說，卷積層是用詞不當，因為它們表達的操作更準確地描述為互相關。根據我們在 7.1 節中對卷積層的描述，在這樣的層中，輸入張量和核張量通過互相關運算組合以產生輸出張量。

讓我們暫時忽略通道，看看它如何處理二維數據和隱藏表示。在圖 7.2.1中，輸入是一個二維張量，高為 3，寬為 3。我們將張量的形狀標記為 3×3或者（3,3). kernel的高和寬都是2，kernel window（或者卷積窗口）的形狀由kernel的高和寬給定（這里是 2×2).

https://file.elecfans.com/web2/M00/A9/C7/poYBAGR9NSyAWvu_AAC_WoWZ9vo337.svg

圖 7.2.1二維互相關運算。陰影部分是第一個輸出元素以及用于輸出計算的輸入和內核張量元素： 0×0+1×1+3×2+4×3=19.

在二維互相關操作中，我們從位于輸入張量左上角的卷積窗口開始，將其從左到右和從上到下滑動到輸入張量上。當卷積窗口滑動到某個位置時，包含在該窗口中的輸入子張量和核張量逐元素相乘，所得張量相加產生單個標量值。這個結果給出了相應位置的輸出張量的值。這里，輸出張量的高度為 2，寬度為 2，四個元素由二維互相關運算得出：

(7.2.1)0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43.

請注意，沿每個軸，輸出大小略小于輸入大小。因為內核的寬度和高度大于一，我們只能正確計算內核完全適合圖像的位置的互相關，輸出大小由輸入大小給出nh×nw減去卷積核的大小kh×kw通過

(7.2.2)(nh?kh+1)×(nw?kw+1).

之所以如此，是因為我們需要足夠的空間來“移動”圖像上的卷積核。稍后我們將看到如何通過在圖像邊界周圍填充零來保持大小不變??，以便有足夠的空間來移動內核。接下來，我們在函數中實現這個過程corr2d，它接受一個輸入張量X 和一個內核張量K并返回一個輸出張量Y。

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
  return Y

							 

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = np.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
  return Y

							 

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = jnp.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y = Y.at[i, j].set((X[i:i + h, j:j + w] * K).sum())
  return Y

							 

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j].assign(tf.reduce_sum(
        X[i: i + h, j: j + w] * K))
  return Y