다층 퍼셉트론(Multilayer Perceptron, MLP)

다층 퍼셉트론(MLP) 딥러닝의 출발점인 MLP의 구조와 작동 원리를 알아보고, Python으로 직접 구현해본다.

들어가며

딥러닝의 세계에 첫발을 내디딜 때 가장 먼저 마주하게 되는 모델은 바로 다층 퍼셉트론(Multilayer Perceptron, MLP)일 것이다. MLP는 인공신경망의 가장 기본적인 형태로, 복잡한 딥러닝 아키텍처의 근간을 이루는 중요한 개념이다.

이번 포스팅에서는 딥러닝의 출발점이라 할 수 있는 MLP의 구조와 작동 원리를 알아보고, 간단한 Python 예제 코드를 통해 직접 모델을 구현해보았다.

1. 다층 퍼셉트론(MLP)이란?

MLP는 입력층(Input Layer)과 출력층(Output Layer) 사이에 하나 이상의 은닉층(Hidden Layer)을 포함하는 인공신경망 구조다. 각 층은 여러 개의 노드(뉴런)로 구성되며, 한 층의 노드들은 다음 층의 모든 노드와 완전히 연결된(Fully-connected) 특징을 가진다.

가장 단순한 신경망인 퍼셉트론은 선형 분리가 가능한 문제만 해결할 수 있다는 한계가 있었다. 하지만 MLP는 여러 개의 은닉층을 쌓고 각 층에 비선형 활성화 함수(Non-linear Activation Function, 예: ReLU, Sigmoid)를 도입함으로써, 복잡한 비선형 문제까지 해결할 수 있는 능력을 갖추게 되었다.

2. MLP의 학습 과정

MLP의 학습은 크게 순전파(Forward Propagation)와 역전파(Backward Propagation) 두 단계로 이루어진다.

순전파 (Forward Propagation): 입력 데이터가 입력층에서 시작하여 은닉층을 거쳐 출력층까지 전달되는 과정이다. 각 노드에서는 이전 층으로부터 들어온 신호들에 가중치(weight)를 곱하고, 편향(bias)을 더한 뒤, 활성화 함수를 거쳐 다음 층으로 신호를 전달한다. 이렇게 계산된 최종 출력값(예측값)과 실제값(정답)의 차이를 손실(Loss)이라고 한다.
역전파 (Backward Propagation): 계산된 손실을 최소화하는 방향으로 각 연결의 가중치와 편향을 업데이트하는 과정이다. 출력층에서부터 입력층 방향으로, 각 가중치가 손실에 얼마나 영향을 미쳤는지(기여도)를 계산하고, 경사 하강법(Gradient Descent)과 같은 최적화 알고리즘을 사용하여 가중치를 조정한다. 이 과정을 수없이 반복하며 모델은 최적의 가중치를 찾아간다.

3. Python으로 MLP 구현하기

개념만으로는 와닿지 않을 수 있다. 이번에는 scikit-learn의 Iris 데이터셋과 TensorFlow/Keras를 사용하여 간단한 MLP 모델을 직접 만들어 보았다.

가. 필요한 라이브러리 설치

먼저, 필요한 라이브러리를 설치해야 한다.

sudo pip3 install tensorflow scikit-learn

나. 예제 소스 코드

붓꽃의 꽃잎과 꽃받침의 길이/너비(4개 특성)를 기반으로 3가지 품종(Setosa, Versicolor, Virginica) 중 하나로 분류하는 간단한 MLP 모델이다.

import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.datasets import load_iris
import numpy as np

# 1. 데이터 로드 및 전처리
# 붓꽃 데이터셋 로드
iris = load_iris()
X = iris.data
y = iris.target.reshape(-1, 1) # (n_samples,) -> (n_samples, 1)

# 입력 데이터(X) 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 타겟 데이터(y) 원-핫 인코딩
# 0 -> [1, 0, 0]
# 1 -> [0, 1, 0]
# 2 -> [0, 0, 1]
encoder = OneHotEncoder(sparse_output=False)
y_onehot = encoder.fit_transform(y)

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_onehot, test_size=0.2, random_state=42)

# 2. MLP 모델 구축 (Keras 사용)
model = tf.keras.Sequential([
    # 입력층 (특성 4개), 첫 번째 은닉층 (노드 10개), 활성화 함수 ReLU
    tf.keras.layers.Dense(10, activation='relu', input_shape=(4,)),

    # 두 번째 은닉층 (노드 10개), 활성화 함수 ReLU
    tf.keras.layers.Dense(10, activation='relu'),

    # 출력층 (클래스 3개), 활성화 함수 Softmax (다중 분류용)
    tf.keras.layers.Dense(3, activation='softmax')
])

# 3. 모델 컴파일
# 최적화 알고리즘: Adam
# 손실 함수: categorical_crossentropy (다중 분류용)
# 평가 지표: accuracy (정확도)
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 모델 구조 요약 출력
model.summary()

# 4. 모델 학습
# 100번의 epoch(전체 데이터셋 반복 학습 횟수) 동안 학습
# batch_size: 한 번에 처리할 데이터 샘플 개수
history = model.fit(X_train, y_train, epochs=100, batch_size=5, verbose=1)

# 5. 모델 평가
# 테스트 데이터로 모델의 성능 평가
loss, accuracy = model.evaluate(X_test, y_test, verbose=0)
print(f'\nTest Accuracy: {accuracy*100:.2f}%')

# 6. 새로운 데이터로 예측
# 임의의 새로운 붓꽃 데이터 생성 (표준화 필요)
new_flower_data = np.array([[5.1, 3.5, 1.4, 0.2]]) # Setosa 품종에 가까운 데이터
new_flower_data_scaled = scaler.transform(new_flower_data)

# 예측 수행
prediction = model.predict(new_flower_data_scaled)
predicted_class = np.argmax(prediction, axis=1)

print(f'\nNew data prediction: {prediction}')
print(f'Predicted class: {iris.target_names[predicted_class][0]}')

# print
New data prediction: [[9.9966228e-01 3.3776104e-04 1.1798655e-13]]
Predicted class: setosa

마치며

MLP는 정형 데이터(테이블 형태의 데이터)에 대한 분류나 회귀 문제에서 여전히 강력하고 효과적인 모델이다.
또한, CNN이나 RNN과 같은 복잡한 모델의 일부(주로 마지막 출력단)로도 활용되는 만큼,
그 구조와 원리를 명확히 이해하는 것은 딥러닝 학습의 튼튼한 기초가 될 것이다.

참고 자료

TensorFlow Core, Basic classification: Classify images of clothing
scikit-learn, 3.1. Cross-validation: evaluating estimator performance

저작자표시 비영리 변경금지 (새창열림)

'🎓 Data Science & AI > Deep Learning' 카테고리의 다른 글

트랜스포머(Transformer)와 어텐션(Attention) (1)	2026.06.07
순환 신경망(Recurrent Neural Network, RNN) (0)	2026.03.02
합성곱 신경망(Convolutional Neural Network, CNN) (0)	2026.03.02