순환 신경망(Recurrent Neural Network, RNN)

순환 신경망(RNN) RNN이 순서 데이터를 어떻게 '기억'하고 처리하는지 원리를 알아보고, 간단한 시계열 예측 모델을 직접 구현한다.

들어가며

우리가 사용하는 언어, 주식 시장의 가격 변동, 심장 박동 데이터 등 세상에는 순서(sequence)가 매우 중요한 데이터가 많다. "나는 밥을 먹는다"와 "밥은 나를 먹는다"가 전혀 다른 의미인 것처럼, 순서 정보는 데이터의 본질을 이해하는 데 핵심적인 역할을 한다.

MLP나 CNN과 같은 모델들은 입력 데이터 간의 순서나 시간적 관계를 고려하지 않는다. 이러한 순차 데이터(Sequential Data)를 효과적으로 처리하기 위해 고안된 모델이 바로 순환 신경망(Recurrent Neural Network, RNN)이다. 이번 포스팅에서는 RNN이 어떻게 과거의 정보를 '기억'하여 현재의 입력과 연결 짓는지 그 원리를 알아보고, 간단한 시계열 예측 모델을 직접 구현해보았다.

1. 순환 신경망(RNN)이란?

RNN은 순서가 있는 데이터를 처리하기 위해 설계된 인공신경망이다.
모델 내부에 순환하는 구조를 가지고 있어,
이전 시점(time step)의 정보를 기억하고 현재의 입력과 함께 처리하는 것이 가장 큰 특징이다.

RNN은 이전 단계의 출력을 현재 단계의 입력으로 다시 사용하는 재귀적인 방식으로 작동한다. 모델은 각 시점에서 입력값과 이전 시점의 은닉 상태(Hidden State)를 함께 받아 현재 시점의 은닉 상태를 갱신한다. 이 은닉 상태가 바로 RNN이 과거의 정보를 요약하여 저장하는 '메모리' 역할을 한다.

2. RNN의 한계와 LSTM의 등장

기본적인 RNN 구조는 간단하지만, 치명적인 단점이 있었다. 바로 장기 의존성 문제(Long-term Dependency Problem)다. 시퀀스가 길어질수록, 역전파 과정에서 기울기가 점차 사라지거나(Vanishing Gradient) 폭발하는(Exploding Gradient) 문제가 발생하여 아주 먼 과거의 정보는 현재까지 전달되기 어려웠다.

이러한 문제를 해결하기 위해 등장한 것이 LSTM(Long Short-Term Memory)이다. LSTM은 RNN의 기본 구조에 셀 상태(Cell State)와 3개의 게이트(Gate)를 추가하여, 어떤 정보를 기억하고, 어떤 정보를 잊어버릴지를 효과적으로 제어한다.

Forget Gate: 과거의 정보 중 무엇을 잊을지 결정한다.
Input Gate: 현재 정보 중 무엇을 셀 상태에 저장할지 결정한다.
Output Gate: 셀 상태로부터 어떤 정보를 출력으로 내보낼지 결정한다.

이러한 게이트 구조 덕분에 LSTM은 훨씬 더 긴 시퀀스의 의존성을 학습할 수 있게 되었다.

3. Python으로 RNN(LSTM) 구현하기

이번에는 TensorFlow/Keras를 사용하여 간단한 사인(Sine)파형을 예측하는 LSTM 모델을 만들어보았다. 과거의 사인파 값을 보고 다음 시점의 값을 예측하는 시계열 예측 문제다.

가. 필요한 라이브러리 설치

tensorflow와 scikit-learn이 이미 설치되어 있다면 별도의 설치는 필요 없다.

나. 예제 소스 코드

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

# 1. 데이터 생성
# 사인파 데이터 생성
def create_sequence_data(timesteps=50):
    # 0부터 100까지 0.1 간격으로 1000개의 데이터 포인트 생성
    data = np.sin(np.arange(0, 100, 0.1))
    X, y = [], []
    for i in range(len(data) - timesteps):
        # timesteps 만큼의 데이터를 입력(X)으로, 그 다음 데이터를 정답(y)으로
        X.append(data[i:(i + timesteps)])
        y.append(data[i + timesteps])
    return np.array(X), np.array(y)

TIMESTEPS = 50
X, y = create_sequence_data(TIMESTEPS)

# RNN/LSTM 입력을 위해 데이터 형태 변경 (samples, timesteps, features)
X = X.reshape(X.shape[0], X.shape[1], 1)

# 학습 데이터와 테스트 데이터 분리 (마지막 100개를 테스트용으로 사용)
X_train, X_test = X[:-100], X[-100:]
y_train, y_test = y[:-100], y[-100:]

# 2. LSTM 모델 구축
model = tf.keras.Sequential([
    # 입력 형태: (TIMESTEPS, 1)
    # 50개의 LSTM 유닛을 가진 층
    tf.keras.layers.LSTM(50, input_shape=(TIMESTEPS, 1)),

    # 출력층 (1개의 값을 예측)
    tf.keras.layers.Dense(1)
])

# 3. 모델 컴파일
# 손실 함수: mean_squared_error (회귀 문제용)
model.compile(optimizer='adam', loss='mean_squared_error')

# 모델 구조 요약
model.summary()

# 4. 모델 학습

model.fit(X_train, y_train, epochs=20, batch_size=32)


# 실행 결과

20 에포크(epoch) 학습 후, 모델은 매우 낮은 MSE(평균 제곱 오차)를 보이며 사인파형을 성공적으로 예측했다. 아래는 모델의 구조와 학습 과정, 그리고 실제 값과 예측 값을 비교한 시각화 결과이다.

Model: "sequential"
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━┓
┃ Layer (type)                    ┃ Output Shape           ┃       Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━┩
│ lstm (LSTM)                     │ (None, 50)             │        10,400 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dense (Dense)                   │ (None, 1)              │            51 │
└─────────────────────────────────┴────────────────────────┴───────────────┘
 Total params: 10,451 (40.82 KB)
 Trainable params: 10,451 (40.82 KB)
 Non-trainable params: 0 (0.00 B)

Epoch 1/20
27/27 ━━━━━━━━━━━━━━━━━━━━ 2s 16ms/step - loss: 0.2361
Epoch 2/20
27/27 ━━━━━━━━━━━━━━━━━━━━ 0s 14ms/step - loss: 0.0167
...
Epoch 20/20
27/27 ━━━━━━━━━━━━━━━━━━━━ 0s 15ms/step - loss: 2.6237e-07

Test MSE: 0.000000
Test RMSE: 0.000481

학습이 진행될수록 손실(MSE Loss)이 급격히 감소하는 것을 확인할 수 있다.

# 5. 모델 평가 및 예측

# 테스트 데이터로 예측 수행

predicted_values = model.predict(X_test)

# 6. 결과 시각화

plt.figure(figsize=(12, 6))
plt.plot(np.arange(len(y_train), len(y_train) + len(y_test)), y_test, label='Actual')
plt.plot(np.arange(len(y_train), len(y_train) + len(y_test)), predicted_values, label='Predicted', linestyle='--')
plt.title('Sine Wave Prediction')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

아래 그래프는 실제 사인파형과 모델이 예측한 값을 비교한 것이다.
주황색 실선이 실제 값, 붉은색 점선이 모델의 예측값인데, 거의 완벽하게 일치하는 것을 볼 수 있다.

마치며

RNN과 그 발전형인 LSTM, GRU는 순서가 있는 데이터를 다루는 데 매우 강력한 도구다. 자연어 처리(기계 번역, 챗봇, 감성 분석), 시계열 예측(주가 예측, 수요 예측), 음성 인식 등 다양한 분야에서 핵심적인 역할을 수행하고 있다.

최근에는 Transformer 아키텍처가 자연어 처리 분야에서 RNN의 자리를 대체하고 있지만, RNN의 기본 아이디어인 '순환'과 '기억'의 개념은 여전히 딥러닝의 중요한 축을 이루고 있다.

참고 자료

TensorFlow Core, Text generation with an RNN
colah's blog, Understanding LSTM Networks

저작자표시 비영리 변경금지 (새창열림)

'🎓 Data Science & AI > Deep Learning' 카테고리의 다른 글

트랜스포머(Transformer)와 어텐션(Attention) (1)	2026.06.07
합성곱 신경망(Convolutional Neural Network, CNN) (0)	2026.03.02
다층 퍼셉트론(Multilayer Perceptron, MLP) (0)	2026.03.02