ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋๋ ์ด๊ฐ์ ๋ธ๋ก์ ์์ญ ๊ฐ ์์์ ๊ตฌ์ฑํ๋ค ์ธ์ฝ๋ ๋ธ๋ก ๊ตฌ์ฑ์์ ๋ฉํฐ ํค๋ ์ดํ ์ (Multi-Head Attention) ํผ๋ํฌ์๋ ๋ด๋ด๋คํธ์ํฌ(FeedForward) ์์ฐจ ์ฐ๊ฒฐ ๋ฐ ๋ ์ด์ด ์ ๊ทํ(Add & Norm) ๋ง์คํฌ๋ฅผ ์ ์ฉํ ๋ฉํฐ ํค๋ ์ดํ ์ (Masked Multi-Head Attention) ๋ฉํฐ ํค๋ ์ดํ ์ (Multi-Head Attention) ํผ๋ํฌ์๋ ๋ด๋ด ๋คํธ์ํฌ(FeedForward) ์์ฐจ ์ฐ๊ฒฐ ๋ฐ ๋ ์ด์ด ์ ๊ทํ(Add & Norm) Self attention = Multi-Head Attention ์ดํ ์ = ์ค์ํ ์์์ ๋ ์ง์คํด ์ฑ๋ฅ์ ๋์ด ์ฌ๋ฆฌ๋ ๊ธฐ๋ฒ ๊ธฐ๊ณ๋ฒ์ญ์ ์ดํ ์ ๋์ ํ๋ฉด ํ๊น ์ธ์ด๋ฅผ ๋์ฝ๋ฉํ ๋ ์์ค ์ธ์ด์ ๋จ์ด ์๋ญ์ค ๊ฐ์ด๋ฐ ๋์ฝ๋ฉ์ ๋์์ด ๋๋ ..