합성곱 신경망(Convolutional Neural Network, CNN)

합성곱 신경망(CNN) CNN이 이미지의 공간 정보를 어떻게 학습하는지 원리를 파헤치고, TensorFlow/Keras로 MNIST 손글씨 분류 모델을 만든다.

들어가며

지난 포스팅에서 딥러닝의 기본 모델인 MLP에 대해 알아보았다. MLP는 강력한 모델이지만, 이미지를 처리하는 데는 한계가 명확했다. 이미지를 1차원 벡터로 펼쳐서 처리하기 때문에, 픽셀 간의 공간적인 관계 정보(spatial information)를 잃어버리기 때문이다.

이러한 문제를 해결하기 위해 등장한 것이 바로 합성곱 신경망(Convolutional Neural Network, CNN)이다. CNN은 인간의 시신경이 이미지를 처리하는 방식을 모방하여, 이미지의 지역적 특징을 효과적으로 추출하고 학습하도록 설계되었다. 이번 포스팅에서는 CNN의 핵심 원리를 파헤치고, TensorFlow/Keras로 직접 손글씨 숫자 이미지(MNIST)를 분류하는 모델을 만들어보았다.

1. 합성곱 신경망(CNN)이란?

CNN은 이미지 데이터 처리에 특화된 딥러닝 모델이다.
모델 스스로 이미지의 특징(Feature)을 학습하여 패턴을 파악한다.
필터(Filter, 또는 커널)를 사용하여 이미지의 특징을 추출하는 합성곱(Convolution) 연산과,
특징을 압축하고 강조하는 풀링(Pooling) 연산이 핵심적인 구성 요소다.

2. CNN의 핵심 구성 요소

가. 합성곱 층 (Convolutional Layer)

합성곱 층에서는 필터(Filter)가 이미지 위를 일정한 간격(Stride)으로 이동하면서, 필터와 이미지의 해당 부분의 원소별 곱셈 합을 계산한다. 이 과정을 통해 이미지의 특정 패턴(수직선, 수평선, 특정 색상 등)이 어디에 있는지를 나타내는 특징 맵(Feature Map)이 생성된다.

필터(Filter): 특징 추출기의 역할을 하는 작은 행렬. 이 필터의 값들(가중치)이 바로 학습 과정에서 업데이트된다.
스트라이드(Stride): 필터가 한 번에 이동하는 픽셀의 크기.
패딩(Padding): 합성곱 연산 후 특징 맵의 크기가 작아지는 것을 방지하고, 이미지의 외곽 부분 정보를 보존하기 위해 입력 이미지의 가장자리에 특정 값(주로 0)을 채워 넣는 것.

나. 풀링 층 (Pooling Layer)

풀링 층은 합성곱 층에서 얻은 특징 맵의 크기를 줄여(Sub-sampling) 계산량을 감소시키고, 주요 특징을 더욱 강조하는 역할을 한다. 주로 최대 풀링(Max Pooling)이 사용되는데, 이는 특정 구역에서 가장 큰 값(가장 활성화된 특징)만을 남기는 방식이다.

풀링을 통해 모델은 이미지 내에서 객체의 위치가 조금 변하더라도 동일한 객체로 인식할 수 있는 이동 불변성(Translation Invariance) 특성을 얻게 된다.

3. Python으로 CNN 구현하기

이번에는 TensorFlow/Keras를 사용하여 유명한 MNIST 손글씨 숫자 데이터셋을 분류하는 간단한 CNN 모델을 구현해보았다.

가. 필요한 라이브러리 설치

MLP 포스팅에서 tensorflow를 이미 설치했다면 별도의 설치는 필요 없다.

나. 예제 소스 코드

28x28 픽셀 크기의 흑백 손글씨 숫자 이미지를 0부터 9까지 10개의 클래스로 분류하는 CNN 모델이다.

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

# 1. MNIST 데이터셋 로드 및 전처리
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# 이미지 데이터를 0~1 사이 값으로 정규화 및 채널 차원 추가
# (60000, 28, 28) -> (60000, 28, 28, 1)
x_train = x_train.reshape((60000, 28, 28, 1)) / 255.0
x_test = x_test.reshape((10000, 28, 28, 1)) / 255.0

# 2. CNN 모델 구축 (Keras 사용)
model = tf.keras.models.Sequential([
    # 첫 번째 합성곱 층
    # 32개의 3x3 필터, 활성화 함수 ReLU
    # 입력 이미지 크기: (28, 28, 1)
    tf.keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),

    # 첫 번째 풀링 층 (Max Pooling)
    tf.keras.layers.MaxPooling2D((2, 2)),

    # 두 번째 합성곱 층
    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),

    # 두 번째 풀링 층
    tf.keras.layers.MaxPooling2D((2, 2)),

    # 세 번째 합성곱 층
    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),

    # 3D 특징 맵을 1D 벡터로 변환
    tf.keras.layers.Flatten(),

    # 완전 연결층 (MLP)
    tf.keras.layers.Dense(64, activation='relu'),

    # 출력층 (10개 클래스, Softmax 활성화 함수)
    tf.keras.layers.Dense(10, activation='softmax')
])

# 3. 모델 컴파일
# 손실 함수: sparse_categorical_crossentropy (정수 형태의 레이블용)
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 모델 구조 요약
model.summary()

# 4. 모델 학습
model.fit(x_train, y_train, epochs=5, batch_size=64)

# 5. 모델 평가
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=2)
print(f"\nTest accuracy: {test_acc*100:.2f}%")

# 6. 예측 결과 확인
# 테스트 데이터의 첫 번째 이미지를 사용하여 예측
predictions = model.predict(x_test)
predicted_label = np.argmax(predictions[0])
actual_label = y_test[0]

plt.imshow(x_test[0].reshape(28, 28), cmap='gray_r')
plt.title(f"Predicted: {predicted_label}, Actual: {actual_label}")
plt.show()

다. 실행 결과

학습 중 손실(Loss)과 정확도(Accuracy)가 어떻게 변하는지 보여주는 그래프이다.
에포크가 진행될수록 손실은 줄고 정확도는 1에 가까워지는 이상적인 모습을 보인다.

다음은 실제 테스트 이미지 10개에 대한 예측 결과이다.
모델이 예측한 값(Pred)과 실제 값(Actual)을 비교해보면, 틀린 예측은 붉은색으로 표시된다.
이 예시에서는 10개 모두 정확하게 예측했다.

마치며

CNN은 합성곱과 풀링이라는 독창적인 아이디어를 통해 이미지의 공간적 특징을 효과적으로 학습한다.
이를 통해 이미지 분류, 객체 탐지(Object Detection), 이미지 분할(Image Segmentation) 등 컴퓨터 비전 분야의 핵심적인 기술로 자리 잡았다.

참고 자료

TensorFlow Core, Convolutional Neural Network (CNN)

저작자표시 비영리 변경금지 (새창열림)

'🎓 Data Science & AI > Deep Learning' 카테고리의 다른 글

트랜스포머(Transformer)와 어텐션(Attention) (1)	2026.06.07
순환 신경망(Recurrent Neural Network, RNN) (0)	2026.03.02
다층 퍼셉트론(Multilayer Perceptron, MLP) (0)	2026.03.02