Paper Reading ๐/Natural Language Processing
The overview of this paper ๊ฑฐ๋ PLM์ ๋๋ผ์ด in-context learning(ICL) ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ๋๋ผ์ด ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ค์ ๋ฉ์ปค๋์ฆ์ ์์ง open question์ผ๋ก ๋จ์์๋ค. ๊ทธ๋์ ์ด ๋
ผ๋ฌธ์์๋ LM์ meta-optimizer๋ก ์ค๋ช
ํ๊ณ in-context learning์ ์๋ฌต์ ์ธ fine-tuning์ผ๋ก ์ดํดํ๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ก ์ ์ผ๋ก attention์ ๋ค๋ฅธ ํํ์ gradient descent๋ผ๋ ๊ฒ์ ์์๋๋ค. ๋
ผ๋ฌธ์์๋ in-context learning์ ๋ค์๊ณผ ๊ฐ์ด ์ดํดํ์๋ค. GPT๊ฐ demonstration example์ ๋ฐ๋ผ์ meta-gradient๋ฅผ ์์ฑํ๊ณ , ์ด ๊ธฐ์ธ๊ธฐ๋ ICL ๋ชจ๋ธ ์์ฑ์ ์ํด ๊ธฐ์กด์ GPT์..
Paper Reading ๐/Natural Language Processing
The overview of this paper LLM์ fine-tune ํ๋๋ฐ ๊ด๋ฒ์ํ supervision์ ํ์๋ก ํ๋ ๋ฐ๋ฉด์ ์ฌ๋์ ์ธ๋ถ์ ์
๋ ฅ ์์ด self-thinking์ ํจ์ผ๋ก์จ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค. ์ด ๋
ผ๋ฌธ์์๋ LLM๋ ์ค์ง unlabeled dataset๋ง์ ์ฌ์ฉํ์ฌ self-improve ํ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช
ํ๋ค. ๋
ผ๋ฌธ์์๋ CoT prompting๊ณผ Self-Consistency๋ฅผ ์ฌ์ฉํด์ unlabeled question์ ๋ํ 'high-confidence' ratinoale-augmented answer๋ฅผ ์์ฑํ๊ธฐ ์ํด PLM์ ์ฌ์ฉํ๊ณ ์ด self-generated solution์ ์ด self-generated solution์ ํ๊น output์ผ๋ก ํด์ ..
Paper Reading ๐/Natural Language Processing
The overview of this paper LM๋ค์ ์ ์ ๊ด๋ฒ์ํ task์ ์ ์ฉ๋๊ณ ์๋๋ฐ ์์ง token-level left-to-right decision-making ํ๋ก์ธ์ค์ ๊ตญํ๋์ด ์๋ค. ์ด๊ฒ์ ํ๊ตฌ์ ์ ๋ต์ ์ธ ๋ฐฉ๋ฒ์ ํ์๋ก ํ๋ task์์๋ ๋ชจ๋ธ์ด ํ๊ณ๋ฅผ ๊ฒช๊ฑฐ๋ ์ด๊ธฐ์ ๊ฒฐ์ ์ด ์ค์ฌ ์ญํ ์ ์ํํ ์๋ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LM ์ถ๋ก ์ ์ํ ์ ํ๋ ์์ํฌ์ธ 'Tree of Thoughts'(ToT)๋ฅผ ์ ์ํ์๋ค. ToT๋ CoT๋ฅผ ์ผ๋ฐํํ๊ณ ๋ฌธ์ ํด๊ฒฐ์ ๋ํ ์ค๊ฐ ์คํ
์ผ๋ก ์ฌ๊ฒจ์ง๋ ์ผ๊ด์ฑ ์๋ ํ
์คํธ์ ์ ๋์ ๋ํด ํ๊ตฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด ์ค๋ค. ToT๋ ์ฌ๋ฌ ์๋ก ๋ค๋ฅธ reasoning path๋ฅผ ๊ณ ๋ คํ๊ณ ๋ค์ ํ๋์ ์ฝ์ค๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด self-evaluating choice๋ฅผ ..
Paper Reading ๐/Natural Language Processing
The overview of this paper ์ด์ ์ ์ฐ๊ตฌ(Self-Instruct)์์๋ human-written instruction ์์ด machine-generated instruction๋ง์ ์ฌ์ฉํด์ LLM์ fine-tune ํด์ ์๋ก์ด task์ ๋ํด์ ์ข์ zero-shot ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๋
ผ๋ฌธ์์๋ GPT-4๋ก instruction data๋ฅผ ๋ง๋ค์ด์ LLM fine-tuning์ ์ฌ์ฉํ๊ณ ์ ํ์๋ค. ๋ํ GPT-4๋ก๋ถํฐ ํผ๋๋ฐฑ & ๋น๊ต ๋ฐ์ดํฐ ๋ํ ์์งํด์ ์ข
ํฉ์ ์ธ ํ๊ฐ์ reward model training์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ ์ ํ์๋ค. Table of Contents 1. Introduction 2. Dataset 3. Instruction-Tuning Language Mode..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper LLM์ human value๋ก align ํ๋ ๊ฒ์ LLM์ ์ ๊ตํ ์กฐ์ข
์ ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ๊ธฐ ๋๋ฌธ์ ์ค์ํด์ก๋ค. ํ์ง๋ง alignment๋ ์๋นํ ์์ human demonstration๊ณผ ํผ๋๋ฐฑ์ ํ์๋ก ํ๋ค. ์ต๊ทผ์ open-source model์ ์ด๋ฏธ align ๋ InstructGPT์ ChatGPT ๊ฐ์ LLM์ผ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ distill ํจ์ผ๋ก์จ alignment learning ํ๋ก์ธ์ค๋ฅผ ๋ณต์ ํ์๋ค. ์ด ํ๋ก์ธ์ค๋ ์ฌ๋์ ๋
ธ๋ ฅ์ ์ค์ฌ์ฃผ์ง๋ง, teacher model์ ์๋นํ ์์กด์ ์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ ์ฌ๋์ ๋
ธ๋์ด ๊ฑฐ์ ํ์ํ์ง ์๊ณ pre-aligned LLM์ ์์กดํ์ง ์๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ด ํ๋ ์์ํฌ์ ํ๋ก์ธ์ค๋ ๋ค..
Paper Reading ๐/Natural Language Processing
The overview of this paper Transformer์ ๊ณ ์ ์ฌ์ด์ฆ context๋ GPT๊ฐ long text๋ฅผ ๋ง๋ค ์ ์๊ฒ ๋ง๋ ๋ค. ์ด ๋
ผ๋ฌธ์์๋ RNN์ ๋ฐ๋ณต ๋ฉ์ปค๋์ฆ์ ์ธ์ด ๊ธฐ๋ฐ ๋ณต์ ์ธ RecurrentGPT๋ฅผ ์๊ฐํ๋ค. RecurrentGPT๋ ChatGPT ๊ฐ์ LLM์ ๊ธฐ๋ฐํด์ ๋ง๋ค์ด์ง๊ณ LSTM์ Long-Short Term Memory์ ๊ตฌ๋ํ๊ธฐ ์ํด ์์ฐ์ด๋ฅผ ์ฌ์ฉํ์๋ค. ๊ฐ timestep์์ RecurrentGPT๋ ํ
์คํธ์ ๋ฌธ๋จ์ ์์ฑํ๊ณ , ํ๋ ๋๋ผ์ด๋ธ์ prompt ๊ฐ๊ฐ์ ์ ์ฅ๋์ด ์๋ ์ธ์ด ๊ธฐ๋ฐ Long-Short Term Memory๋ฅผ ์
๋ฐ์ดํธํ๋ค. ์ด ๋ฐ๋ณต ๋ฉ์ปค๋์ฆ์ RecurrentGPT๊ฐ forgetting ์์ด ์์์ ๊ธธ์ด์ ๊ธด ํ
์คํธ๋ฅผ ์์ฑํ ์ ์๋..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper instruction learning์ instruction tuning๊ณผ RLHF๋ฅผ ํฌํจํ๋ fune-tuning ๋ฌธ์ ๋ก ์ ๊ทผ๋์๋ค. ์ฌ๊ธฐ์ LLM์ ๋ค์ํ task์์ instruction๊ณผ ํจ๊ป ๋ค์ํ task์์ fine-tune ๋์๋ค. in-context learning์ instruction learning์ ์ ์ฉํ ๊ฒ์ด In-Context Instruction Learning(ICIL)์ด๋ค. ICIL์ pre-trained & instruction-finetned ๋ชจ๋ธ์ zero-shot task ์ผ๋ฐํ ์ฑ๋ฅ์ ์๋นํ ๊ฐ์ ์์ผฐ๋ค. ICIL์ ํ ๊ฐ์ง ํต์ฌ ์ฅ์ ์ ๋ชจ๋ task๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ cross-task๋ฅผ ์ฐ๊ฒฐํ ํ๋์ ๊ณ ์ ..
Paper Reading ๐/Natural Language Processing
์ด๋ฒ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ powerpoint๋ก ์์ฑํ์๋ค. ๋
ผ๋ฌธ์ ๊ฐ๋จํ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๊ณ , ๋
ผ๋ฌธ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์ฒจ๋ถ๋ powerpoint ํ์ผ์ ํ์ธํ๊ธธ ๋ฐ๋๋ค. powerpoint์ ๋ฉ๋ชจ์ ์ฌ๋ผ์ด๋ ๋
ธํธ์ ์ค๋ช
์ ์ ์ด๋์ผ๋ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค. ์ด ํฌ์คํ
์ ๋ค์์ ์ ํ๋ธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. The overview of this paper NLP์ ์ค์ ํจ๋ฌ๋ค์์ general domain ๋ฐ์ดํฐ์์ ๋๊ท๋ชจ pre-training์ ํ๊ณ ํน์ task ๋๋ domain์ ์ ์ฉ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. larger model์ pre-train ํ๋ ๊ฒ์ฒ๋ผ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌํ์ตํ๋ full fine-tuning์ ์คํ ๊ฐ๋ฅ์ฑ์ด ๋จ์ด์ง๋ค. ๋
ผ๋ฌธ์์๋ pre-trained model์ ๊ฐ์ค..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper LLM์ ๋ ๊ฐ์ง์ ๋จ๊ณ๋ก ํ์ต๋๋ค. general-purpose representation์ ํ์ตํ๊ธฐ ์ํด, raw text๋ก๋ถํฐ unsupervised pre-training์ ์ฌ์ฉ end task์ ์ฌ์ฉ์ ์ ํธ๋ฅผ align ํ๊ธฐ ์ํด ๋๊ท๋ชจ instruction tuning & RL์ ์ฌ์ฉ ์ด ๋ ๊ฐ์ง stage์ ์ค์์ฑ์ ์ธก์ ํ๊ธฐ ์ํด ์ด๋ ํ RL ๋๋ human preference modeling ์์ด ์ค์ง 1000๊ฐ์ ์ ์คํ๊ฒ ์ ์ ๋ prompt & response์์ ๊ธฐ์กด supervised loss๋ฅผ ์ฌ์ฉํด์ fine-tune ๋ LLaMA-65B์ธ LIMA๋ฅผ ํ์ต์์ผฐ๋ค. LIMA๋ ๋ณต์กํ ์ฟผ๋ฆฌ๋ฅผ ํฌํจํ๋ training ๋ฐ์ดํฐ์ ๋ช ๊ฐ์ง ์..
Paper Reading ๐/Natural Language Processing
The overview of this paper ํ์ตํ๋๋ฐ ์๋นํ ๋ง์ compute๊ฐ ํ์ํ LLM์ zero-shot & few-shot learning์์ ๋์ ๋๋งํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. computational cost๊ฐ ์ฃผ์ด์ง๋ฉด ์๋นํ ์๋ณธ ์์ด ์ด๋ฅผ ๋ณต์ ํ๋ ๊ฒ์ ํ๋ค๋ค. ๋๋ถ๋ถ์ ๋ชจ๋ธ์ ๋ํด API๊ฐ ๊ณต๊ฐ๋์ด ์์ง ์๊ณ full model์ ๊ฐ์ค์น์ ๋ํ ์ ๊ทผ์ด ํ๋ฝ๋์ด ์์ง ์๊ธฐ ๋๋ฌธ์ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ ๋ฐ์ ์ด๋ ค์์ ์ ๊ณตํ๊ณ ์๋ค. ๋
ผ๋ฌธ์์๋ ์ฐ๊ตฌ์๋ค์๊ฒ ์์ ํ ๊ณต๊ฐ๋ dcoder-only pre-trained Transformer์ธ Open Pre-trained Transformer(OPT)๋ฅผ ์ ์ํ์๋ค. ๋
ผ๋ฌธ์์๋ OPT-175B๊ฐ GPT-3์ ๋นํด ์ค์ง $\frac {1}{7}$์..