ํŠธ๋žœ์Šคํฌ๋จธ(Transformer)์™€ ์–ดํ…์…˜(Attention)

ํŠธ๋žœ์Šคํฌ๋จธ(Transformer). RNN์˜ ํ•œ๊ณ„๋ฅผ ์–ดํ…์…˜ ํ•˜๋‚˜๋กœ ๋’ค์ง‘์€ ๊ตฌ์กฐ. "Attention Is All You Need"๊ฐ€ ์™œ ๋”ฅ๋Ÿฌ๋‹์˜ ํŒ๋„๋ฅผ ๋ฐ”๊ฟจ๋Š”์ง€, ์…€ํ”„ ์–ดํ…์…˜์˜ ๋™์ž‘ ์›๋ฆฌ๋ฅผ ์ˆ˜์‹๊ณผ ๊ทธ๋ฆผ์œผ๋กœ ์ •๋ฆฌํ•œ๋‹ค. ์˜ค๋Š˜๋‚  GPT·BERT์˜ ์ถœ๋ฐœ์ ์ด๋‹ค.


๋“ค์–ด๊ฐ€๋ฉฐ

RNN ๊ธ€์—์„œ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์ด ์ˆœ์„œ๊ฐ€ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š”์ง€ ๋ดค๋‹ค. ๊ทธ๋Ÿฐ๋ฐ RNN์—๋Š” ๋‘ ๊ฐ€์ง€ ๊ณ ์งˆ์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค. 2017๋…„, ๊ตฌ๊ธ€์ด ๋ฐœํ‘œํ•œ ๋…ผ๋ฌธ "Attention Is All You Need"๋Š” ์ด ํ•œ๊ณ„๋ฅผ ์–ดํ…์…˜์ด๋ผ๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ•˜๋‚˜๋กœ ์ •๋ฉด ๋ŒํŒŒํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ด ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋‹จ์ˆœํžˆ ์ข‹์€ ๋ชจ๋ธ ํ•˜๋‚˜๊ฐ€ ์•„๋‹ˆ๋‹ค. ์˜ค๋Š˜๋‚  ์šฐ๋ฆฌ๊ฐ€ ์“ฐ๋Š” GPT, BERT, Claude ๊ฐ™์€ ๊ฑฐ์˜ ๋ชจ๋“  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ทผ๊ฐ„์ด๋‹ค. ๋”ฅ๋Ÿฌ๋‹์˜ ํ๋ฆ„์„ ๋ฐ”๊พผ ๊ตฌ์กฐ๋ผ ํ•ด๋„ ๊ณผ์–ธ์ด ์•„๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•ต์‹ฌ์€ "์ˆœ์„œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค"๋Š” RNN์˜ ์ „์ œ๋ฅผ ๋ฒ„๋ฆฌ๊ณ , "๋ชจ๋“  ๋‹จ์–ด๋ฅผ ํ•œ ๋ฒˆ์— ๋ณด๋˜ ์„œ๋กœ์˜ ๊ด€๊ณ„์— ์ง‘์ค‘ํ•œ๋‹ค"๋กœ ๋ฐ”๊พผ ๊ฒƒ์ด๋‹ค.

์ด ๊ธ€์—์„œ๋Š” RNN์˜ ํ•œ๊ณ„์—์„œ ์ถœ๋ฐœํ•ด, ๊ทธ๊ฑธ ํ•ด๊ฒฐํ•œ ์…€ํ”„ ์–ดํ…์…˜์˜ ์›๋ฆฌ๋ฅผ ์ˆ˜์‹๊ณผ ํ•จ๊ป˜ ์ •๋ฆฌํ•œ๋‹ค.


RNN์€ ๋ฌด์—‡์ด ๋ฌธ์ œ์˜€๋‚˜

RNN์€ ๋‹จ์–ด๋ฅผ ์ˆœ์„œ๋Œ€๋กœ ํ•˜๋‚˜์”ฉ ์ฒ˜๋ฆฌํ•œ๋‹ค. ์ด ๋ฐฉ์‹์— ๋‘ ๊ฐ€์ง€ ๊ทผ๋ณธ์  ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.

1. ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ (Long-term dependency) ๋ฌธ์žฅ์ด ๊ธธ์–ด์ง€๋ฉด ์•ž์ชฝ ์ •๋ณด๊ฐ€ ๋’ค๋กœ ๊ฐ€๋ฉด์„œ ํฌ๋ฏธํ•ด์ง„๋‹ค. "๋‚˜๋Š” ํ”„๋ž‘์Šค์—์„œ ์ž๋ž๊ณ  ... (๊ธด ๋ฌธ์žฅ) ... ๊ทธ๋ž˜์„œ ๋‚˜๋Š” [ ]๋ฅผ ์œ ์ฐฝํ•˜๊ฒŒ ํ•œ๋‹ค"์—์„œ ๋นˆ์นธ์ด 'ํ”„๋ž‘์Šค์–ด'์ž„์„ ์•Œ๋ ค๋ฉด ๋งจ ์•ž ์ •๋ณด๊ฐ€ ํ•„์š”ํ•œ๋ฐ, RNN์€ ๊ทธ ์‚ฌ์ด๋ฅผ ๊ฑฐ์น˜๋ฉฐ ์ •๋ณด๋ฅผ ์žƒ๋Š”๋‹ค. LSTM·GRU๊ฐ€ ์™„ํ™”ํ–ˆ์ง€๋งŒ ์™„์ „ํžˆ ํ’€์ง„ ๋ชปํ–ˆ๋‹ค.

2. ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€ RNN์€ ์ด์ „ ๋‹จ์–ด์˜ ๊ณ„์‚ฐ์ด ๋๋‚˜์•ผ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์ˆœ์ฐจ์ ์ด๋ผ์„œ GPU์˜ ๋ณ‘๋ ฌ ์—ฐ์‚ฐ์„ ์ œ๋Œ€๋กœ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ๊ธธ์ˆ˜๋ก, ๋ชจ๋ธ์ด ํด์ˆ˜๋ก ํ•™์Šต์ด ๋А๋ ค์ง„๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ด ๋‘˜์„ ํ•œ ๋ฒˆ์— ํ•ด๊ฒฐํ•œ๋‹ค. ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๋™์‹œ์—(๋ณ‘๋ ฌ๋กœ) ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ, ์–ดํ…์…˜์œผ๋กœ ๋‹จ์–ด ๊ฐ„ ๊ด€๊ณ„๋ฅผ ์ง์ ‘ ์—ฐ๊ฒฐํ•œ๋‹ค.


ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์–ดํ…์…˜(Attention)

์–ดํ…์…˜์˜ ์ง๊ด€์€ ๋‹จ์ˆœํ•˜๋‹ค. ๋ฌธ์žฅ์„ ์ดํ•ดํ•  ๋•Œ, ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ์–ด๋–ค ๋‹จ์–ด์— ์ฃผ๋ชฉํ•ด์•ผ ํ•˜๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

"๊ทธ ๋™๋ฌผ์€ ๊ธธ์„ ๊ฑด๋„ˆ์ง€ ์•Š์•˜๋‹ค. ๊ทธ๊ฒƒ์ด ๋„ˆ๋ฌด ํ”ผ๊ณคํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค."

์—ฌ๊ธฐ์„œ "๊ทธ๊ฒƒ"์€ ๋ฌด์—‡์„ ๊ฐ€๋ฆฌํ‚ฌ๊นŒ? ์‚ฌ๋žŒ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ "๋™๋ฌผ"์ด๋ผ๊ณ  ์•ˆ๋‹ค. ์–ดํ…์…˜์€ ๋ฐ”๋กœ ์ด ์—ฐ๊ฒฐ์„ ์ˆ˜์น˜๋กœ ๊ณ„์‚ฐํ•œ๋‹ค. "๊ทธ๊ฒƒ"์ด๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ๋ฌธ์žฅ์˜ ๋‹ค๋ฅธ ๋ชจ๋“  ๋‹จ์–ด์™€ ์–ผ๋งˆ๋‚˜ ๊ด€๋ จ ์žˆ๋Š”์ง€ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๊ณ , ๊ด€๋ จ ๋†’์€ ๋‹จ์–ด("๋™๋ฌผ")์— ๋” ํฐ ๊ฐ€์ค‘์น˜๋ฅผ ์ค€๋‹ค.

์ด๋ ‡๊ฒŒ ํ•œ ๋ฌธ์žฅ ์•ˆ์—์„œ ๋‹จ์–ด๋“ค๋ผ๋ฆฌ ์„œ๋กœ ์ฃผ๋ชฉํ•˜๋Š” ๊ฒƒ์„ ์…€ํ”„ ์–ดํ…์…˜(Self-Attention)์ด๋ผ ํ•œ๋‹ค.


Query, Key, Value

์…€ํ”„ ์–ดํ…์…˜์€ ๊ฐ ๋‹จ์–ด๋ฅผ ์„ธ ๊ฐ€์ง€ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ ์‹œ์ž‘ํ•œ๋‹ค. ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์— ๋น„์œ ํ•˜๋ฉด ์ดํ•ด๊ฐ€ ์‰ฝ๋‹ค.

๋ฒกํ„ฐ  ์—ญํ•   ๊ฒ€์ƒ‰ ๋น„์œ 
Query (Q) ๋‚ด๊ฐ€ ์ฐพ๊ณ  ์žˆ๋Š” ๊ฒƒ ๊ฒ€์ƒ‰์ฐฝ์— ์ž…๋ ฅํ•œ ์งˆ์˜์–ด
Key (K) ๊ฐ ๋‹จ์–ด๊ฐ€ ๊ฐ€์ง„ "๊ผฌ๋ฆฌํ‘œ" ๋ฌธ์„œ์˜ ์ œ๋ชฉ/ํƒœ๊ทธ
Value (V) ์‹ค์ œ๋กœ ๊ฐ€์ ธ์˜ฌ ์ •๋ณด ๋ฌธ์„œ์˜ ๋‚ด์šฉ

๋™์ž‘์€ ์ด๋ ‡๋‹ค. ์–ด๋–ค ๋‹จ์–ด์˜ Query๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋“  ๋‹จ์–ด์˜ Key์™€ ๋น„๊ตํ•ด "์–ผ๋งˆ๋‚˜ ์ž˜ ๋งž๋Š”์ง€(์œ ์‚ฌ๋„)"๋ฅผ ๊ตฌํ•œ๋‹ค. ๊ทธ ์œ ์‚ฌ๋„๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ์‚ผ์•„ ๊ฐ ๋‹จ์–ด์˜ Value๋ฅผ ๊ฐ€์ค‘ํ•ฉํ•œ๋‹ค. ๊ด€๋ จ ๋†’์€ ๋‹จ์–ด์˜ ์ •๋ณด์ผ์ˆ˜๋ก ๋” ๋งŽ์ด ์„ž์ด๋Š” ๊ฒƒ์ด๋‹ค.


์–ดํ…์…˜ ์ˆ˜์‹

์ด ๊ณผ์ •์„ ํ•œ ์ค„์˜ ์ˆ˜์‹์œผ๋กœ ์ •๋ฆฌํ•œ ๊ฒŒ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•ต์‹ฌ์ด๋‹ค.

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

ํ•˜๋‚˜์”ฉ ๋œฏ์–ด๋ณด์ž.

  • $QK^T$ : Query์™€ Key์˜ ๋‚ด์ . ๋‹จ์–ด๋“ค ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„(์–ดํ…์…˜ ์ ์ˆ˜)๋ฅผ ๊ตฌํ•œ๋‹ค.
  • $\sqrt{d_k}$ : Key ๋ฒกํ„ฐ ์ฐจ์›์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค. ๊ฐ’์ด ๋„ˆ๋ฌด ์ปค์ ธ softmax๊ฐ€ ํ•œ์ชฝ์œผ๋กœ ์ ๋ฆฌ๋Š” ๊ฑธ ๋ง‰๋Š” ์Šค์ผ€์ผ๋ง์ด๋‹ค.
  • $\text{softmax}$ : ์ ์ˆ˜๋“ค์„ ํ•ฉ์ด 1์ธ ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ๋ฐ”๊พผ๋‹ค. "์–ด๋””์— ์–ผ๋งˆ๋‚˜ ์ฃผ๋ชฉํ• ์ง€"์˜ ๋น„์œจ์ด ๋œ๋‹ค.
  • $\cdot V$ : ๊ทธ ๋น„์œจ๋กœ Value๋ฅผ ๊ฐ€์ค‘ํ•ฉํ•œ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ "์ฃผ๋ชฉํ•œ ์ •๋ณด๊ฐ€ ์„ž์ธ" ์ƒˆ ํ‘œํ˜„์„ ์–ป๋Š”๋‹ค.

์…€ํ”„ ์–ดํ…์…˜ (Self-Attention)

์š”์•ฝํ•˜๋ฉด, "Query์™€ Key๋กœ ์ฃผ๋ชฉํ•  ์ •๋„๋ฅผ ์ •ํ•˜๊ณ , ๊ทธ๋งŒํผ Value๋ฅผ ์„ž๋Š”๋‹ค"๋Š” ๊ฒŒ ์ „๋ถ€๋‹ค. ์ด ์—ฐ์‚ฐ์ด ํ–‰๋ ฌ ๊ณฑ์ด๋ผ ๋ชจ๋“  ๋‹จ์–ด์— ๋Œ€ํ•ด ํ•œ ๋ฒˆ์—(๋ณ‘๋ ฌ๋กœ) ๊ณ„์‚ฐ๋œ๋‹ค. RNN์˜ ์ˆœ์ฐจ ์ฒ˜๋ฆฌ ํ•œ๊ณ„๊ฐ€ ์—ฌ๊ธฐ์„œ ํ’€๋ฆฐ๋‹ค.


๋ฉ€ํ‹ฐ ํ—ค๋“œ ์–ดํ…์…˜ (Multi-Head Attention)

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์–ดํ…์…˜์„ ํ•œ ๋ฒˆ๋งŒ ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ๋™์‹œ์— ๋Œ๋ฆฐ๋‹ค. ์ด๊ฑธ ๋ฉ€ํ‹ฐ ํ—ค๋“œ ์–ดํ…์…˜์ด๋ผ ํ•œ๋‹ค.

์ž…๋ ฅ → [ํ—ค๋“œ 1] ๋ฌธ๋ฒ•์  ๊ด€๊ณ„์— ์ฃผ๋ชฉ
      [ํ—ค๋“œ 2] ์˜๋ฏธ์  ๊ด€๊ณ„์— ์ฃผ๋ชฉ
      [ํ—ค๋“œ 3] ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๋‹จ์–ด ๊ด€๊ณ„์— ์ฃผ๋ชฉ
      ...
      → ๊ฒฐ๊ณผ๋ฅผ ํ•ฉ์ณ์„œ ์ข…ํ•ฉ

๊ฐ ํ—ค๋“œ๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ ๋‹จ์–ด ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•œ๋‹ค. ํ•œ ํ—ค๋“œ๋Š” ์ฃผ์–ด-๋™์‚ฌ ๊ด€๊ณ„๋ฅผ, ๋‹ค๋ฅธ ํ—ค๋“œ๋Š” ์ˆ˜์‹ ๊ด€๊ณ„๋ฅผ ๋ณด๋Š” ์‹์ด๋‹ค. ์—ฌ๋Ÿฌ ์‹œ์„ ์œผ๋กœ ๋ฌธ์žฅ์„ ๋™์‹œ์— ๋ถ„์„ํ•œ ๋’ค ํ•ฉ์น˜๋ฏ€๋กœ, ๋‹จ์ผ ์–ดํ…์…˜๋ณด๋‹ค ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ์–ป๋Š”๋‹ค.

# PyTorch์—๋Š” ๋ฉ€ํ‹ฐ ํ—ค๋“œ ์–ดํ…์…˜์ด ๋‚ด์žฅ๋ผ ์žˆ๋‹ค
import torch.nn as nn

attention = nn.MultiheadAttention(embed_dim=512, num_heads=8)
# embed_dim: ๋‹จ์–ด ๋ฒกํ„ฐ ์ฐจ์›, num_heads: ํ—ค๋“œ ๊ฐœ์ˆ˜
output, weights = attention(query, key, value)

์ˆœ์„œ ์ •๋ณด๋Š” ์–ด๋–ป๊ฒŒ? — ์œ„์น˜ ์ธ์ฝ”๋”ฉ

์—ฌ๊ธฐ์„œ ์˜๋ฌธ์ด ์ƒ๊ธด๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ, ๊ทธ๋Ÿฌ๋ฉด ๋‹จ์–ด์˜ ์ˆœ์„œ๋Š” ์–ด๋–ป๊ฒŒ ์•Œ๊นŒ? "๋‚˜๋Š” ๋„ˆ๋ฅผ ์ข‹์•„ํ•ด"์™€ "๋„ˆ๋ฅผ ๋‚˜๋Š” ์ข‹์•„ํ•ด"๋ฅผ ๊ตฌ๋ถ„ํ•˜๋ ค๋ฉด ์œ„์น˜ ์ •๋ณด๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ฐ ๋‹จ์–ด์˜ ์ž„๋ฒ ๋”ฉ์— ์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encoding) ์„ ๋”ํ•ด์„œ ์ˆœ์„œ ์ •๋ณด๋ฅผ ์ฃผ์ž…ํ•œ๋‹ค. ์› ๋…ผ๋ฌธ์€ ์‚ฌ์ธ·์ฝ”์‚ฌ์ธ ํ•จ์ˆ˜๋ฅผ ์ผ๋‹ค.

$$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right)$$

๊ฐ ์œ„์น˜๋งˆ๋‹ค ๊ณ ์œ ํ•œ ํŒจํ„ด์˜ ๊ฐ’์„ ๋”ํ•ด์คŒ์œผ๋กœ์จ, ๋ชจ๋ธ์ด "์ด ๋‹จ์–ด๊ฐ€ ๋ช‡ ๋ฒˆ์งธ์ธ์ง€"๋ฅผ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. ์ˆœ์ฐจ ์ฒ˜๋ฆฌ๋ฅผ ํฌ๊ธฐํ•œ ๋Œ€์‹ , ์œ„์น˜ ์ •๋ณด๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋”ํ•ด์ฃผ๋Š” ๋ฐฉ์‹์ด๋‹ค.


ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ „์ฒด ๊ตฌ์กฐ

์› ๋…ผ๋ฌธ์˜ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋‹ค.

  • ์ธ์ฝ”๋”: ์ž…๋ ฅ ๋ฌธ์žฅ์„ ๋ฐ›์•„ ์˜๋ฏธ๋ฅผ ๋‹ด์€ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ (์…€ํ”„ ์–ดํ…์…˜ + ํ”ผ๋“œํฌ์›Œ๋“œ ์‹ ๊ฒฝ๋ง ๋ฐ˜๋ณต)
  • ๋””์ฝ”๋”: ์ธ์ฝ”๋”์˜ ํ‘œํ˜„๊ณผ ์ง€๊ธˆ๊นŒ์ง€ ์ƒ์„ฑํ•œ ๋‹จ์–ด๋ฅผ ๋ณด๊ณ  ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์ƒ์„ฑ

์ด ๊ตฌ์กฐ์—์„œ ๊ฐˆ๋ผ์ ธ ๋‚˜์˜จ ๊ฒƒ์ด ์˜ค๋Š˜๋‚ ์˜ ๋ชจ๋ธ๋“ค์ด๋‹ค.

๋ชจ๋ธ ๊ณ„์—ด  ์‚ฌ์šฉ ๊ตฌ์กฐ  ๋Œ€ํ‘œ ๋ชจ๋ธ  ์ž˜ํ•˜๋Š” ์ผ
์ธ์ฝ”๋”๋งŒ ์–‘๋ฐฉํ–ฅ ์ดํ•ด BERT ๋ถ„๋ฅ˜, ๊ฒ€์ƒ‰, ์ดํ•ด
๋””์ฝ”๋”๋งŒ ๋‹ค์Œ ํ† ํฐ ์ƒ์„ฑ GPT, Claude ํ…์ŠคํŠธ ์ƒ์„ฑ
์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ณ€ํ™˜ T5, BART ๋ฒˆ์—ญ, ์š”์•ฝ

์ง€๊ธˆ ์šฐ๋ฆฌ๊ฐ€ ์“ฐ๋Š” ChatGPT, Claude๋Š” ๋Œ€๋ถ€๋ถ„ ๋””์ฝ”๋” ๊ธฐ๋ฐ˜์ด๋‹ค. "๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด"๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ธ€์„ ์ƒ์„ฑํ•œ๋‹ค.


๋งˆ์น˜๋ฉฐ

ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ๋”ฅ๋Ÿฌ๋‹์˜ ํŒ๋„๋ฅผ ๋ฐ”๊พผ ๊ฑด, RNN์˜ ๋‘ ํ•œ๊ณ„(์žฅ๊ธฐ ์˜์กด์„ฑ, ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€)๋ฅผ ์–ดํ…์…˜์ด๋ผ๋Š” ๋‹จ์ผ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ๋™์‹œ์— ํ’€์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ํ•œ ๋ฒˆ์— ๋ณด๋ฉด์„œ ์„œ๋กœ์˜ ๊ด€๊ณ„์— ์ง‘์ค‘ํ•œ๋‹ค๋Š” ๋ฐœ์ƒ์˜ ์ „ํ™˜์ด, ๋” ํฌ๊ณ  ๋” ๋˜‘๋˜‘ํ•œ ๋ชจ๋ธ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ๋‹ค.

ํ•ต์‹ฌ๋งŒ ๋‹ค์‹œ ์งš์œผ๋ฉด ์ด๋ ‡๋‹ค. ์…€ํ”„ ์–ดํ…์…˜์€ Query·Key·Value๋กœ ๋‹จ์–ด ๊ฐ„ ์ฃผ๋ชฉ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ ($\text{softmax}(QK^T/\sqrt{d_k})V$), ๋ฉ€ํ‹ฐ ํ—ค๋“œ๋กœ ์—ฌ๋Ÿฌ ๊ด€์ ์„ ๋™์‹œ์— ๋ณด๋ฉฐ, ์œ„์น˜ ์ธ์ฝ”๋”ฉ์œผ๋กœ ์ˆœ์„œ๋ฅผ ๋ณด์™„ํ•œ๋‹ค. ์ด ๋‹จ์ˆœํ•˜๋ฉด์„œ ๊ฐ•๋ ฅํ•œ ๊ตฌ์กฐ ์œ„์— GPT์™€ BERT, ๊ทธ๋ฆฌ๊ณ  ์˜ค๋Š˜๋‚ ์˜ LLM์ด ๋ชจ๋‘ ์„œ ์žˆ๋‹ค.

๋‹ค์Œ์— LLM์ด ์–ด๋–ป๊ฒŒ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š”์ง€, ํ˜น์€ ์ด ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ๋กœ ํ™•์žฅ๋˜๋Š”์ง€๋ฅผ ๋” ๋‹ค๋ค„๋ณด๋ฉด ์ข‹๊ฒ ๋‹ค.


์ฐธ๊ณ  ์ถœ์ฒ˜