The overview of this paper
๊ฑฐ๋ PLM์ ๋๋ผ์ด in-context learning(ICL) ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ๋๋ผ์ด ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ค์ ๋ฉ์ปค๋์ฆ์ ์์ง open question์ผ๋ก ๋จ์์๋ค.
๊ทธ๋์ ์ด ๋
ผ๋ฌธ์์๋ LM์ meta-optimizer๋ก ์ค๋ช
ํ๊ณ in-context learning์ ์๋ฌต์ ์ธ fine-tuning์ผ๋ก ์ดํดํ๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ก ์ ์ผ๋ก attention์ ๋ค๋ฅธ ํํ์ gradient descent๋ผ๋ ๊ฒ์ ์์๋๋ค. ๋
ผ๋ฌธ์์๋ in-context learning์ ๋ค์๊ณผ ๊ฐ์ด ์ดํดํ์๋ค. GPT๊ฐ demonstration example์ ๋ฐ๋ผ์ meta-gradient๋ฅผ ์์ฑํ๊ณ , ์ด ๊ธฐ์ธ๊ธฐ๋ ICL ๋ชจ๋ธ ์์ฑ์ ์ํด ๊ธฐ์กด์ GPT์ ์ ์ฉ๋๋ค.
๋
ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ in-context learning์ด ์ฌ๋ฌ ๊ด์ ์์ ๋ช
์์ finetuning๊ณผ ์ ์ฌํ๊ฒ ํ๋ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ Transformer attention๊ณผ gradient descent์ ์ด์ค ํํ์ ์๊ฐ์ ๋ฐ์์ momentum-based attention์ ์ ์ํ์๋ค.
Table of contents
1. Introduction
2. Understanding In-Context Learning as Implicit Finetuning
3. Experiments
4. Momentum-Based Attention Inspired by Dual Form of Transformer Attention
1. Introduction
๋๊ท๋ชจ PLM์ ๊ฐ๋ ฅํ ICL ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ICL์ ๋น๋ก ๊ต์ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง ์ด๊ฒ์ ์๋ ๋ฉ์ปค๋์ฆ์ open question์ด๋ค.
์ด ๋
ผ๋ฌธ์์๋ in-context learning์ meta-optimization์ ํ๋ก์ธ์ค๋ก ์ค๋ช
ํ๊ณ GPT ๊ธฐ๋ฐ ICL๊ณผ fine-tuning ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ๋ถ์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ attention ๋ฉ์ปค๋์ฆ์ gradient descent์ ๋ ๋ค๋ฅธ ํํ๋ผ๋ ๊ฒ์ ์์๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋
ผ๋ฌธ์์๋ ICL์ ์๋ก์ด ๊ด์ ์ ์ ์ํ์๋ค.
- pre-trained GPT๋ฅผ meta-optimizer๋ก ์ฌ๊น
- forward computation์ ํตํด demonstration example์ ๋ฐ๋ผ meta-gradient๋ฅผ ์์ฑํจ
- meta-gradient๋ ICL ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด attention์ ํตํด ๊ธฐ์กด LM์ ์ ์ฉ๋จ
๊ทธ๋ฆผ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ in-context learning๊ณผ ๋ช
์์ fine-tuning์ gradient descent์ ์ด์ค ๋ทฐ๋ฅผ ๊ณต์ ํ๋ค. ์ฌ๊ธฐ์ ICL์ forward computation์ ํตํด meta-gradient๋ฅผ ์์ฑํ๋ ๋ฐ๋ฉด์ fine-tuning์ back-propagation์ ์ํด ๊ณ์ฐ๋๋ค. ๊ทธ๋์ in-context learning์ ์์์ ์ธ fine-tuning์ผ๋ก ์๊ฐํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ธ ๊ฒ์ด๋ค.
์ถ๊ฐ์ ์ผ๋ก, Transformer attention๊ณผ gradient descent ๊ฐ์ ์ด์ค ํํ๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์ attention value๋ฅผ meta-gradient๋ก ์ฌ๊ธฐ๊ณ momentum ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ momentum-based attention์ ๋์์ธํ์๋ค.
๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- Transformer attention๊ณผ gradient descent ๊ฐ์ ์ด์ค์ ํํ๋ฅผ ์์๋ด๊ณ ICL์ meta-optimization์ผ๋ก ์ดํดํ๋๋ก ์ ์ํ์๋ค.
- ICL๊ณผ ๋ช ์์ ์ธ fine-tuning ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ๋ถ์ & ICL์ ์๋ฌต์ fine-tuning์ผ๋ก ์ดํดํ๋๋ก ์ ์ํ์๋ค.
- momentum ๊ธฐ๋ฐ attention์ ๋์์ธํ๊ณ ์ด๊ฒ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์๋ค.
2. Understanding In-Context Learning as Implicit Finetuning
2-1. Understanding Transformer Attention as Meta-Optimizers
ICL ์ธํ ์์ ํค๋์ attention ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ํ๋๋ค.
์ ์์์์ $X$๋ $t$ ์ด์ ์ ์ฟผ๋ฆฌ ํ ํฐ์ input representation์ด๊ณ , $X'$์ demonstration token์ input representation์ด๋ค. $[X';X]$๋ ํ๋ ฌ ์ฐ๊ฒฐ์ด๋ค. ํ๋ฆฌํฐ ๋ถ์์ ์ข ๋ ์ฝ๊ฒ ํ๊ธฐ ์ํด ๊ธฐ์กด์ attention์ softmax ์ฐ์ฐ๊ณผ scaling factor๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ ์ํ๋ ์ ํ attention์ผ๋ก ๊ทผ์ฌํ์๋ค:
๋ ผ๋ฌธ์์๋ $W_{ZSL} = W_{V}X(W_{K}X)^{T}$๋ฅผ ์ ๋ฐ์ดํธ๋์ด์ผ ํ๋ ์ด๊ธฐํ๋ ํ๋ผ๋ฏธํฐ๋ก ์ ์ํ๋๋ฐ ์๋ํ๋ฉด $W_{ZSL}\textbf{q}$๊ฐ zero-shot learning(ZSL)์์ attention ๊ฒฐ๊ณผ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ค์๊ณผ ๊ฐ์ด Transformer attention์ ์ด์ค ํํ๋ฅผ ์ป์ ์ ์๋ค:
์ ์์์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ demonstration token์ ๋ํ attention์ $W_{ZSL}$์ ์ํฅ์ ๋ฐ๋ $W_{ICL}$์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ํ๋ ๊ฒ๊ณผ ๋๋ฑํ๋ค. ๊ฒ๋ค๊ฐ ๋ ผ๋ฌธ์์๋ $W_{V}X'$์ meta-gradient๋ก ๊ฐ์ฃผํ๋๋ฐ, ์ด๊ฒ์ ์ ๋ฐ์ดํธ ํ๋ ฌ $\Delta W_{ICL}$๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
์์ฝํ๋ฉด in-context learning์ meta-optimization์ ํ๋ก์ธ์ค๋ก ์ค๋ช ๋๋ค.
- pre-trained GPT ๋ชจ๋ธ์ meta-optimizer๋ก ์ด๋
- forward computation์ ํตํด demonstration example์ ์์ํ๋ meta-gradient๋ฅผ ์์ฑํจ
- attention์ ํตํด ICL ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด meta-gradients๊ฐ ๊ธฐ์กด์ LM์ ์ ์ฉ๋จ
2-2. Comparing ICL with Finetuning
์์ in-context learning์ ์ดํด์ ๊ธฐ๋ฐํด์ ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก in-context learning์ meta-optimization๊ณผ finetuning์ ๋ช ์์ optimization์ ์ด๋ค ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ๋ถ์ํ๊ธฐ ์ํด ๋น๊ตํ์๋ค. ICL์ ์ง์ ์ ์ผ๋ก ์ค์ง attention key & value์ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ ๊ณ ๋ คํด์, ๊ตฌ์ฒด์ ์ธ finetuning ์ธํ ์ ๋น๊ต๋๋ baseline์ผ๋ก ๋์์ธํ์๋ค. ์ด๊ฒ์ ๋ํ ์ค์ง key์ value projection์ ๋ํ ํ๋ผ๋ฏธํฐ๋ง ์ ๋ฐ์ดํธํ์๋ค. ๋ํ ์ํ๋ ์ ํ attention ํํ์์, finetuned head์ attention ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ํ๋๋ค.
์ฌ๊ธฐ์ $\Delta W_{K}$์ $\Delta W_{V}$๋ $W_{K}$์ $W_{V}$์ ๋ํ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ๋ํ๋ธ๋ค. ์ด๊ฒ๋ค์ task-specific training objective๋ก๋ถํฐ back-propagation์ ์ํด ์ป์ด์ง๋ค. ๊ทธ๋ฆฌ๊ณ $\Delta W_{FT}$๋ finetuning์ ์ํด ์๊ฐ๋๋ $W_{ZSL}$์ ์ ๋ฐ์ดํธ์ด๋ค.
in-context learning๊ณผ์ ๋์ฑ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ finetuning ์ธํ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ํํ์๋ค.
- in-context learning์ ์ํด training example์ demonstration example๋ก ๋ช ์ํจ
- ๊ฐ example์ ๋๊ฐ์ ์์์์ ์ค์ง ํ ์คํ ์ ๋ํด ํ์ต์ํด
- ๊ฐ training example์ ICL์ ์ฌ์ฉ๋๋ ๋๊ฐ์ ํ ํ๋ฆฟ์ ์ฌ์ฉํ์ฌ ํฌ๋งทํ๊ณ finetuning์ ์ํด language modeling objective๋ก ์ฌ์ฉํจ
in-context learning๊ณผ ์ด finetuning ์ธํ ์ ๋น๊ตํด์ ICL์ด finetuning์ ํน์ฑ์ ๋ง์ด ๋ฐ๋ฅธ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ผ๋ฐ์ ์ธ ํน์ฑ์ ๋ค์๊ณผ ๊ฐ์ 4๊ฐ์ ์ธก๋ฉด์์ ์กฐ์งํ์๋ค.
- Both Perform Gradient Descent: in-conetext learning๊ณผ finetuning ๋ชจ๋ $W_{ZSL}$์ ๋ํ ์ ๋ฐ์ดํธ๋ฅผ ํ๋ค. ์ด๊ฒ์ ์์์ & ๋ช ์์ gradient descent๋ก๋ถํฐ ์ป์ด์ง๋ค. ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ ICL์ forward computation๋ก meta-gradient๋ฅผ ์์ฑํ๋ ๋ฐ๋ฉด์ fine-tuning์ back-propagation์ผ๋ก ์ค์ gradient๋ฅผ ์ป๋๋ค.
- Same Training Information: ICL์ meta-gradient๋ demonstration example์ ๋ฐ๋ผ ์์ฑ๋๋ค. finetuning์ gradient๋ ๋๊ฐ์ training example๋ก๋ถํฐ ์ป์ด์ง๋ค. ์ด๊ฒ์ in-context learning๊ณผ finetuning์ด ๋๊ฐ์ training information์ ์์ค๋ฅผ ๊ณต์ ํ๋ค๋ ๊ฒ์ด๋ค.
- Same Casual Order of Training Examples: in-context learning๊ณผ finetuning ์ธํ ์ training example์ ๋๊ฐ์ casual oreder๋ฅผ ๋ฐ๋ฅธ๋ค. ๋ ๋ค autoregressive ๋ฐฉ์์ด๊ธฐ์ ๋ค์ด์ example์ ์์ ํ ํฐ์ ์ํฅ์ ๋ฐ์ง ์๋๋ค.
- Both Aim at Attention: zero-shot learning๊ณผ ๋น๊ตํด์ in-context learning๊ณผ finetuning์ ์ง์ ์ ์ธ ํจ๊ณผ๋ attention key์ value์ ๊ณ์ฐ์ ๋ํด ์ ํ๋๋ค. ICL์ ๋ํด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ค์ ๋ณํ์ง ์๊ณ attention ํน์ฑ์ ๋ณํ์ํค๊ธฐ ์ํด demonstration information์ ์ธ์ฝ๋ฉํ๋ค.
์์ in-context learning๊ณผ finetuning ๊ฐ์ ์ผ๋ฐ์ ์ธ ํน์ฑ์ ๊ณ ๋ คํ๋ฉด, in-context learning์ ์์์ ์ธ finetuning์ผ๋ก ์ดํดํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ด๋ค.
3. Experiments
3-1. Experimental Settings
Models. GPT 1.3B & GPT 2.7B ๊ฐ ์ฌ์ฉ๋์๋ค.
Evaluation Datasets. in-context learning๊ณผ finetuning์ 3 ์ข ๋ฅ์ ๋ถ๋ฅ task์์ 6๊ฐ์ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐํด์ ๋น๊ตํ์๋ค: SST2, SST5, MR, Subj, AG-News, CB.
์ฐธ์กฐ๋ฅผ ์ํด ZSL, finetuning, ICL ์ธํ ์์์ validation accuracy๋ฅผ ๊ณ์ฐํด์ ํ 1์ ๋ํ๋๋ค. ZSL, finetuning, ICL ์ธํ ์ ๋ชจ๋ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ์๊ณ , ์ด๊ฒ์ ์ด๋ค์ด ๋ง๋๋ optimization์ด downstream task์ ๋ํด ๋์์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
3-2. ICL Covers Most of Correct Predictions of Finetuning
๋ ผ๋ฌธ์์๋ ICL์ด ๋ชจ๋ธ ์์ธก์ ๊ด์ ์ผ๋ก๋ถํฐ finetuning์ ํน์ฑ์ ์ผ๋ง๋ ์ปค๋ฒํ ์ ์๋์ง ์ธก์ ํ๊ธฐ ์ํด finetuning์ ๋ํ recall(Rec2FTP)๋ฅผ ๊ณ์ฐํ์๋ค. ์ฒ์์ FT๋ ์๋ง๊ฒ ์์ธกํ์ง๋ง ZSL์ ํ์ง ๋ชปํ๋ ์ฟผ๋ฆฌ์ ์์ธ $N_{FT>ZSL}$๋ฅผ ์ธก์ ํ์๊ณ , ์ด์ค์ ICL๋ ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ๋ ์ฟผ๋ฆฌ์ ์์ธ $N_{(FT>ZSL)\wedge (ICL>ZSL)}$๋ฅผ ๊ณ์ฐํ์๋ค. ๋ง์นจ๋ด Rec2FTP score๋ $\frac {N_{FT>ZSL}\wedge (ICL>ZSL)}{N_{FT>ZSL}}$๋ก ๊ณ์ฐํ๋ค. ๋์ Rec2FTP score๋ ICL์ด ๋ชจ๋ธ ์์ธก์ ๊ด์ ์ผ๋ก๋ถํฐ finetuning์ ๋์ฑ ์๋ง์ ํน์ฑ์ ์ปค๋ฒํ๋๋ก ์ ์ํ์๋ค.
6๊ฐ์ ๋ฐ์ดํฐ์ ์์ 2๊ฐ์ GPT ๋ชจ๋ธ์ ๋ํ Rec2FTP score๋ ํ 2์ ๋ํ๋ ์๋ค. ํ 2์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ํ๊ท ์ ์ผ๋ก ICL์ finetuning์ด ZSL์์ ์์ ํ ์ ์๋ example์ 85% ์ด์์ ์ ํํ๊ฒ ์์ธกํ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ชจ๋ธ ์์ธก์ ๊ด์ ์์ ICL์ finetuning์ ์ฌ๋ฐ๋ฅธ ํน์ฑ์ ๋๋ถ๋ถ์ ์ปค๋ฒํ ์ ์๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
3-3. ICL Tends to Change Attention Outputs in the Same Direction as Finetuning
representation์ ๊ด์ ์ผ๋ก๋ถํฐ ICL๊ณผ finetuning ๊ฐ์ ์ ๋ฐ์ดํธ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๊ธฐ ์ํด attention output ์ ๋ฐ์ดํธ์ ์ ์ฌ๋(SimAOU)๋ฅผ ๊ณ์ฐํ๋ค. ICL๊ณผ finetuning๊ณผ ZSL ๊ฐ์ ์ ๋ฐ์ดํธ ๋น๊ต๋ ๊ฐ๊ฐ $\textbf{h}_{ICL}^{(l)} - \textbf{h}_{ZSL}^{(l)}$๊ณผ $\textbf{h}_{FT}^{(l)} - \textbf{h}_{ZSL}^{(l)}$์ด๋ค. ๋ ผ๋ฌธ์์๋ $l$ ๋ฒ์งธ ๋ ์ด์ด์์ SimAOU($\Delta$FT)๋ฅผ ์ป๊ธฐ ์ํด ์ด ๋ ์ ๋ฐ์ดํธ ๊ฐ์ cosine์ ๊ณ์ฐํ๋ค. ๋์ score๋ ICL์ด finetuning๊ณผ ๋๊ฐ์ด ์ ๋ฐ์ดํธ๋ฅผ ํ๊ณ ์๋ค๋ ์๋ฏธ์ด๋ค. ๋น๊ต๋ฅผ ์ํด ICL ์ ๋ฐ์ดํธ์ ๋๋ค ํ๊ฒ ์์ฑ๋ ์ ๋ฐ์ดํธ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ baseline metric์ธ SimAOU(Random $\Delta$) ๋ํ ๊ณ์ฐํ์๋ค.
6๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํ example๊ณผ 2๊ฐ์ GPT ๋ชจ๋ธ์ ๋ํ ๋ ์ด์ด ๊ฐ์ ํ๊ท SimAOU score๋ฅผ ํ 3์์ ๋ํ๋ด๊ณ ์๋ค. ํ๋ฅผ ์ดํด๋ณด๋ฉด Random SimAOU score๋ ๋ฎ๊ณ , $\Delta$ FT SimAOU score๋ ๋์ ๊ฒ์ผ๋ก ๋ณด์ ICL ์ ๋ฐ์ดํธ๋ ๋๋ค ์ ๋ฐ์ดํธ๋ณด๋ค finetuning ์ ๋ฐ์ดํธ์ ๋์ฑ ๋น์ทํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
3-4. ICL Is Inclined to Generate Similar Attention Weights to Finetuning
attention ํ๋์ ๊ด์ ์ผ๋ก๋ถํฐ ICL๊ณผ finetuning์ ๋ํ query token์ ๋ํ attention map์ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๊ธฐ ์ํด attention map์ ์ ์ฌ๋(SimAM)๋ฅผ ๊ณ์ฐํ์๋ค. ICL์ ๋ํด demonstration token์ ๋ํ attention์ ๋น ํธ๋ฆฌ๊ณ ์ค์ง query token์ ๋ํ attention ๊ฐ์ค์น๋ฅผ ๋ชจ๋ํฐ๋งํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก finetuning ์ ์ $\textbf{m}_{ICL}^{(l, h)}$์ $\textbf{m}_{ZSL}^{(l, h)}$ ๊ฐ์ cosine์ ๊ณ์ฐํ๊ณ ๊ฐ ๋ ์ด์ด์์ SimAM(Before Finetuning)์ ์ป๊ธฐ ์ํด attention head ๊ฐ์ ์ ์ฌ๋๋ฅผ ํ๊ท ๋ด์๋ค. ์ด์ ์ ์ฌํ๊ฒ, fine-tuning ํ์ $\textbf{m}_{ICL}^{(l, h)}$์ $\textbf{m}_{ZSL}^{(l, h)}$ ๊ฐ์ cosine์ ๊ณ์ฐํด์ SimAM(After Finetuning)์ ๊ณ์ฐํ์๋ค. SimAM(Before Finetuning) ๋ณด๋ค ๋์ SimAM(After Finetuning)์ ICL์ attention ํน์ฑ์ด non-finetuned ๋ชจ๋ธ๋ณด๋ค finetuned ๋ชจ๋ธ๊ณผ ๋์ฑ ์ ์ฌํ๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
ํ 4๋ 6๊ฐ์ ๋ฐ์ดํฐ์ ์์ example๊ณผ 2๊ฐ์ GPT ๋ชจ๋ธ์ ๋ํ ๋ ์ด์ด ๊ฐ์ ํ๊ท SimAM score๋ฅผ ๋ํ๋ด๊ณ ์๋ค. finetuning ์ดํ์ attention ๊ฐ์ค์น์ ๋น๊ตํด์ ICL์ finetuning ์ดํ์ attention ๊ฐ์ค์น์ ๋์ฑ ์ ์ฌํ finetuning ๊ฐ์ค์น๋ฅผ ์์ฑํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋ค์ ๋งํด attention ํน์ฑ์ ๊ด์ ์ผ๋ก๋ถํฐ ICL์ finetuning ํ๊ธฐ ์ํด ์ ์ฌํ๊ฒ ํ๋ํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํ ์ ์์๋ค.
3-5. ICL and Finetuning Tend to Pay Similar Attention to Training Tokens
๋ ผ๋ฌธ์์๋ ICL์ meta-optimization์ ํ๋ก์ธ์ค๋ก ์ดํดํ๊ธฐ ๋๋ฌธ์ attention์ ICL๊ณผ finetuning์ ๋ํ training token์ Kendall rank correlation coefficient๊ณผ ํจ๊ป ๋น๊ตํ์๋ค. $\textbf{m}_{ICL}^{(l)}$์ $\textbf{m}_{FT}^{(l)}$์ Kendall coefficient(ICL, FT) $= \frac {P_{c} - P_{d}}{N(N-1) / 2}$๋ก ๊ณ์ฐ๋๋ค. ์ฌ๊ธฐ์ $N$์ training token์ ์๋ฅผ ๋ํ๋ด๊ณ , $P_{c}$๋ ์กฐํ๋ ์์ ์๋ฅผ ๋ํ๋ด๊ณ , $P_{d}$๋ ์กฐํ๋กญ์ง ๋ชปํ ์์ ์๋ฅผ ๋ํ๋ธ๋ค. ๋์ Kendall ๊ณ์๋ ICL์ training token์ ๋ํ attention ๊ฐ์ค์น์ ์์๋ฅผ ์๋ฏธํ๋ค. ๋ํ ๋น๊ต๋ฅผ ์ํด Kendall(ICL, Random)๋ ๊ณ์ฐํ์๋ค.
ํ 5๋ 6๊ฐ์ ๋ฐ์ดํฐ์ ์์ 2๊ฐ์ GPT ๋ชจ๋ธ์ ๋ํ ๋ ์ด์ด์ exaample ๊ฐ์ ํ๊ท Kendall ์๊ด์ฑ ๊ณ์๋ฅผ ๋ณด์ฌ์ค๋ค. Kendall(ICL, Random)์ ๊ฑฐ์ 0์ ๊ฐ๊น์ ๋ ๋ฐ๋ฉด์ Kendall(ICL, FT)๋ ํญ์ ๋ณ๊ฐ์ positive value๋ฅผ ์ ์งํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ICL๊ณผ finetuning์ด training token์ ๋ํด ์ ์ฌํ attention์ ํ๋ ๊ฒฝํฅ์ด ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค.
4. Momentum-Based Attention Inspired by Dual Form of Transformer Attention
๊ทธ๋ฆผ 2์ฒ๋ผ Transformer attention๊ณผ gradient descent์ ์ด์ค ํํ๋ฅผ ์์๋๋๋ฐ, ์ด๊ฒ์ ์๊ฐ์ ๋ฐ์์ momentum์ ์ฌ์ฉํด๋ณด๊ณ ์ ํ์๋ค.
gradient descent์ momentum ๊ฐ์ ์ ์ฌ์ ์ ์ํด momentum ๊ธฐ๋ฐ attention์ ๋ง๋ค๊ธฐ ์ํด attention value๋ฅผ ํ๊ท ๋ด๊ณ ์ Exponential Moving Average(EMA)๋ฅผ ์ฌ์ฉํ๊ณ ์ ์๋ํ์๋ค:
์ฌ๊ธฐ์ $\textbf{v}_{i}$๋ $i$ ๋ฒ์งธ attention value vector์ด๋ค. attention value vector์ momentum์ ๋ช ์์ ์ผ๋ก attention์ ์๋ก์ด bias๋ฅผ ๊ฐํ์ํจ๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ attention์ momentum์ ์๊ฐํ๋ ๊ฒ์ด ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ๋ ๋์ ์ฑ๋ฅ์ ๊ณตํํ ๊ฒ์ด๋ค๋ผ๊ณ ๊ฐ์ ํ์๋ค.
Experiments on Language Modeling. ์ฒซ ๋ฒ์งธ๋ก language modeling์์ momentum-based attention์ ํจ๊ณผ๋ฅผ ํ๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ 2๊ฐ์ 350M GPT ๋ชจ๋ธ์ ์ฌ์ฉํ๋๋ฐ, ํ๋๋ vanilla Transformer์ด๊ณ , ๋ค๋ฅธ ํ๋๋ attention์ momentum์ ์ ์ฉํ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ํด์ perplexity์ validation์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ํ 6์ ๋ํ๋ ์๋ค. ๋ชจ๋ validation set์์ momentum์ attention์ ์ ์ฉํ๋ ๊ฒ์ ์ผ๊ด๋ perplexity ๊ฐ์ ์ ๋ณด์ฌ์คฌ๋ค.
Experiments on In-Context Learning. ๋ ผ๋ฌธ์์๋ ๋ํ momentum-based attention์ downstream task์์์ ํจ๊ณผ๋ฅผ ์ ์ฆํ๊ธฐ ์ํด ์ LM์ in-context learning ๋ฅ๋ ฅ์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ํ 7์ ๋ํ๋ ์๋ค. vanilla Transformer์ ๋น๊ตํด์ momentum-based attention์ ์ฌ์ฉํ๋ ๊ฒ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ์ผ๊ด๋๊ฒ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2212.10559