p229. 완전연결 계층의 문제점은 ‘데이터의 형상이 무시’된다는 것이다. 이미지는 3차원 형상이며 이 형상에는 소중한 공간적 정보가 담겨 있다. 예를 들어 공간적으로 가까운 픽셀은 값이 비슷하거나, RGB의 각 채널은 서로 밀접하게 관련되어 있거나, 거리가 먼 픽셀끼리는 별 연관이 없는 등, 3차원 속에서 의미를 갖는 본질적인 패턴이 수멍 있을 것이다. 그러나 완전연결 계층은 형상을 무시하고 모든 입력 데이터를 동등한 뉴런으로 취급하여 형상에 담긴 정보를 살릴 수 없다.
합성곱 계층은 형상을 유지한다. 이미지도 3차원 데이터로 입력받으며 다음 계층에도 3차원 데이터로 전달한다. CNN에서는 합성곱 계층의 입출력 데이터를 특징 맵(feature map)이라고 한다.
p230. 합성곱 계층에서의 합성곱 연산을 처리한다. 합성곱 연산은 이미지 처리에서 말하는 필터 연산에 해당한다.
p231. CNN에서는 필터의 매개변수가 그 동안의 ‘가중치’에 해당한다. 물론 편향도 존재한다. 편향은 필터를 적용한 모든 원소에 더해진다.
p232~233. 합성곱 연산을 수행하기 전에 입력 데이터 주변을 특정 값(예컨대 0)으로 채우기도 한다. 이를 패딩이라고 한다. 패딩은 주로 출력 크기를 조정할 목적으로 사용한다. 예를 들어 (4, 4) 입력 데이터에 (3, 3) 필터를 적용하면 출력은 (2, 2)되어 입력보다 2만큼 줄어든다. 합성곱 연산을 여러 번 반복하는 심층 신경망에서는 합성곱 연산을 거칠 때마다 크기가 작아져 어느 시점에서 출력 크기가 1이되어 더 이상 합성곱 연산을 적용할 수 없게 된다. 패딩을 사용해서 입력 데이터의 공간적 크기를 고정한 채로 다음 계층에 전달할 수 있다.
필터를 적용하는 위치의 간격을 스트라이드(stride)라고 한다.
p234. 패딩을 크게 하면 출력 크기가 커지고, 스트라이드를 키우면 출력 크기는 작아진다.
p240. 풀링은 세로 가로 방향의 공간을 줄이는 연산이다. 풀링은 최댓값을 구하는 최대 풀링과 평균 값을 구하는 평균 풀링 등이 있다. 이미지 인식 분야에서는 주로 최대 풀링을 사용한다.
p241. 풀링 계층은 입력 데이터의 변화에 영향을 적게 받는다(강건하다). 입력 데이터의 차이를 풀링이 흡수해 사라지게 한다.