Paper Reading ๐/Natural Language Processing
The Overview ํ์กดํ๋ ๋ง์ instruction-following ๋ชจ๋ธ์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง ์ด๋ค์ ์์ง ๋น์์ด๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ์๋ชป๋ ์ ๋ณด๋ฅผ ์์ฑํ๋ ๋ฑ์ ๊ฒฐํจ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด academic community์ ์ฐธ์ฌ๊ฐ ์ค์ํ์ง๋ง, ํ๊ณ์์ instruction-following ๋ชจ๋ธ์ ๋ํด ์ฐ๊ตฌ๋ฅผ ์งํํ๋ ๊ฒ์ ํ์ ๋ ์์์์ ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฝ๊ฒ ์ ๊ทผํ ์ ์๊ธฐ์ ์ฝ์ง๊ฐ ์๋ค.. ๐ญ Alpaca๋ฅผ ๊ณต๊ฐํ Stanford ์ฐ๊ตฌํ์์๋ Meta์ LLaMA 7B ๋ชจ๋ธ๋ก fine-tune๋ instruction-following ๋ชจ๋ธ์ธ Alpaca๋ฅผ ์๊ฐํ์๋ค. (์์ฆ ๋ชจ๋ธ๋ค์ ๋๋ฌผ ์ด๋ฆ์ผ๋ก ๋ง๋๋ ๊ฒ์ด ํธ๋ ๋์ธ ๊ฒ ๋ถ๋ช
ํ๋ค..!! ๐) ์ฌ๊ธฐ์์ A..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper LM์ ์ข
์ข
์์์น ๋ชปํ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉ์์๊ฒ ํด๋ฅผ ๊ฐํ ์๋ ์๋ค. ์ด์ ์ ์ฐ๊ตฌ๋ค์์๋ human annotator๋ก๋ถํฐ harmful์ ํน์ฑ์ ์ ์ํ๊ฒ ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์๋ค. ํ์ง๋ง, human annotator๋ ๋น์ฉ์ด ๋น์ธ๊ณ , test case์ ๋ค์์ฑ๊ณผ ์์ ์ ์ฝ์ด ๊ฑธ๋ฆฐ๋ค๋ ๋จ์ ์ด ์๋ค. ์ด ๋
ผ๋ฌธ์์๋ ๋ค๋ฅธ LM์ ์ฌ์ฉํด์ "red teaming" test case๋ฅผ ์ ์ํจ์ผ๋ก์จ ํ๊น LM์ด harmful way๋ก ํ๋ํ๋ ์ผ์ด์ค๋ฅผ ์๋์ ์ผ๋ก ์ฐพ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ณต๊ฒฉ์ ์ธ ์ฝํ
์ธ ๋ฅผ ๊ฐ์งํ๋๋ก ํ์ต๋ classifier๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ๋ ํ
์คํธ ์ง๋ฌธ์ ๋ํ ๋์ LM์ ์๋ต์ ํ๊ฐํ๊ณ 280B LM ์ฑ๋ด์์ ์๋ง ๊ฐ์ ๊ณต๊ฒฉ์ ์ธ ์๋ต์ ๋ฐ๊ฒฌ..
Paper Reading ๐/Natural Language Processing
The overview of this paper ๊ฑฐ๋ instruction-tuned LM์ ์๋ก์ด task์ ๋ํด zero-shot์ผ๋ก ์ผ๋ฐํํ๋ ์ข์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ค์ ์, ๋ค์์ฑ, ์ฐฝ์์ฑ์ด ํ์ ๋์ด ์๋ human-written instruction data์ ํฌ๊ฒ ์์กดํ๊ณ ์๋ค. ์ด๋ tuned model์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฐฉํดํ๋ค. ๋
ผ๋ฌธ์์๋ LM์ ์์ฑ์ ํ์ฉํด์ PLM์ instruction-following ๋ฅ๋ ฅ์ ๊ฐ์ ์์ผ ์ฃผ๋ ํ๋ ์์ํฌ์ธ Self-Instruct๋ฅผ ์๊ฐํ์๋ค. Self-Instruct์ ํ์ดํ๋ผ์ธ์ LM์ผ๋ก๋ถํฐ instruction, input, output ์ํ์ ์์ฑํ๊ณ , ์ด๋ค์ ์ฌ์ฉํด์ ๊ธฐ์กด ๋ชจ๋ธ์ fine-tune ํ๊ธฐ ์ ์ ๊ธฐ์ค์ ๋ฐ..
Paper Reading ๐/Natural Language Processing
The overview of this paper ๋
ผ๋ฌธ์์๋ 7B to 65B foundation LM์ ๋ชจ์์ธ LLaMA๋ฅผ ์๊ฐํ์๋ค. ์ด ๋ชจ๋ธ์ ์ ์กฐ ๊ฐ์ ํ ํฐ์์ ํ์ต๋์๊ณ , publicly available ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ ํ์ต๋ง์ผ๋ก๋ SoTA ๋ชจ๋ธ์ ๋ฌ์ฑํ ์ ์์ ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํนํ LLaMA-13B๋ ๊ฑฐ์ ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ GPT-3์ ๋ฅ๊ฐํ๊ณ , LLaMA-65B๋ Chinchilla-70B์ PaLM-540B ๊ฐ์ ์ต๊ณ ์ ๋ชจ๋ธ๊ณผ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ํ์์ ์ธ ์ ์ ์ด ๋ชจ๋ธ๋ค์ ๋ชจ๋ research community์ ๊ณต๊ฐ๋์๋ค๋ ์ ์ด๋ค. Table of Contents 1. Introduction 2. Approach 3. Main Results 4. I..
Paper Reading ๐/Natural Language Processing
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ์ฃผ์ด์ง compute budget์์ transformer LM์ ํ์ต์ํค๊ธฐ ์ํ ์ต์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ & ํ ํฐ์ ์๋ฅผ ์กฐ์ฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ํ์ฌ์ ๋ชจ๋ธ๋ค์ ์๋นํ under-train ๋์ด ์๋ค๋ ์ฌ์ค์ ๋ฐํ๋ค. ํ์ฌ ๋ง์ ์ฐ๊ตฌ๋ค์ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ scaling ํ์ง๋ง, training data์ ์์ ํฌ๊ฒ ๋ณํ์ํค์ง ์๊ณ ์๋ค. ๋
ผ๋ฌธ์์๋ ์ฌ๋ฌ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ํ ํฐ์ ์์ ๋ํด ์คํ์ ์งํํ๊ณ compute-optimal training์ ์ํด ๋ชจ๋ธ ์ฌ์ด์ฆ์ training ํ ํฐ์ ์๋ ๋๊ฐ์ด scale ๋์ด์ผ ํ๋ค๋ ์ฌ์ค์ ๋ฐํ๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด Gopher์ ๋๊ฐ์ compute budget์ ์ฌ์ฉํ์ง๋ง 70B ํ๋ผ๋ฏธํฐ..
Paper Reading ๐/Alignment Problem of LLM
์ด๋ฒ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ powerpoint๋ก ์์ฑํ์๋ค. ๋
ผ๋ฌธ์ ๊ฐ๋จํ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๊ณ , ๋
ผ๋ฌธ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์ฒจ๋ถ๋ powerpoint ํ์ผ์ ํ์ธํ๊ธธ ๋ฐ๋๋ค. powerpoint์ ๋ฉ๋ชจ์ ์ฌ๋ผ์ด๋ ๋
ธํธ์ ์ค๋ช
์ ์ ์ด๋์ผ๋ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค. ์ด ํฌ์คํ
์ ๋ค์์ ์ ํ๋ธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. The overview of this paper ๋
ผ๋ฌธ์์๋ LM์ด ์ ์ฉ(helpful)ํ๊ณ ์ ํดํ์ง ์๊ฒ(harmless)ํ๊ฒ ์๋ํ๋๋ก preference modeling(PM)๊ณผ ์ฌ๋์ ํผ๋๋ฐฑ์ผ๋ก๋ถํฐ ๊ฐํํ์ต(RLHF)๋ฅผ ์ ์ฉํ์ฌ fine-tune ๋์๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ alignment training์ด ๋๋ถ๋ถ์ NLP ํ๊ฐ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , python ์ฝ๋ฉ ๋๋ ์์ฝ๊ณผ ๊ฐ์ ..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper ์ต๊ทผ์ multi-task prompted fine-tunig(MT)๋ผ๊ณ ์๋ ค์ ธ ์๋ ๋ค์ํ task์์ instruction-tuneํ๋ LM์ unseen task์ ๋ํด ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด์ ์ ์ฐ๊ตฌ์์๋ ๊ฐ๋ ฅํ MT LM์ ๋ง๋๋๋ฐ๋ ํ์ต task์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ค์ํ ์์๋ผ๊ณ ๋ฐํ์๋ค. ํ์ง๋ง, ์ด ๋
ผ๋ฌธ์์๋ ์ค์ง ํ๋์ task์์ ํ์ต๋ expert LM์ด 300๊ฐ ์ด์์ ์๋ก ๋ค๋ฅธ task์์ ํ์ต๋ MT LM์ ๋ฅ๊ฐํ๋ค๋ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๋ฐ๊ฒฌ์ ์ด์ ์ task์ ์๋ฅผ ๋๋ฆฌ๋ฉด ๊ฐ๋ ฅํด์ง๋ค๋ ๋ฏฟ์์ ์๋ฌธ์ ์ ๊ธฐํ์๋ค. ์ด ๋ฐ๊ฒฌ์ ํตํด ๋
ผ๋ฌธ์์๋ ๋จ์ผ MT LM ๋์ ํ์ต task ๋น ๋ณ๋์ expert LM์ ํ์ต..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper LM์ instruction์ผ๋ก ํํ๋์ด ์๋ ๋ฐ์ดํฐ์
๋ชจ์์์ fine-tuneํ๋ ๊ฒ์ ํฅ์๋ ์ฑ๋ฅ๊ณผ unseen task์ ๋ํ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ๋
ผ๋ฌธ์์๋ instruction fine-tuning์ ํน๋ณํ ๊ด์ ์์ ๋ค์ฌ๋ค ๋ณด์๋ค. task์ ์ ๋๋ฆฌ๊ธฐ ๋ชจ๋ธ ์ฌ์ด์ฆ ๋๋ฆฌ๊ธฐ CoT ๋ฐ์ดํฐ์์ fine-tune ์์ ์ธก๋ฉด์ ์ฌ์ฉํ instruction fine-tuning์ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํค๋ ๋ชจ์ต์ ๋ณด์ฌ์ ๋ค. ์ ๋ฐ์ ์ผ๋ก instruction fine-tuning์ ์ฑ๋ฅ๊ณผ pre-trained LM์ ๊ฐ์ฉ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค. Table of Contents 1. Introduction 2. Flan Finetuning..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper Meta-training์ task instruction๊ณผ ์
๋ ฅ ์ธ์คํด์ค๊ฐ ์ฃผ์ด์ง๋ฉด ํ๊น ๋ผ๋ฒจ์ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํจ์ผ๋ก์จ ๋ค์ํ downstream task์์ LM์ fine-tune ํ๋ค. ์ด training์ ๋ชจ๋ธ์ zero-shot task ์ผ๋ฐํ๋ฅผ ํฅ์์ํจ๋ค. ํ์ง๋ง, meta-trained LM๋ meta-training ์ค์ ๋ณธ ์ ์๋ ์๋ก์ด ๋ผ๋ฒจ์ ํฌํจํ๋ task์ ๋ํด์ ์ผ๋ฐํํ๋๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ด ๋
ผ๋ฌธ์์๋ Flipped Learning์ ์ ์ํ์๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ meta-training๊ณผ ๋ฐ๋๋ก, ์
๋ ฅ ์ธ์คํด์ค์ ๋ผ๋ฒจ์ด ์ฃผ์ด์ง๋ฉด task instruction์ ์์ฑํ๋๋ก LM์ ํ์ต์ํจ๋ค. Flipp..
Paper Reading ๐/Alignment Problem of LLM
The overview of this paper ์ด๋ป๊ฒ NLP ๋ชจ๋ธ๋ค์ task instruction์ด ์ฃผ์ด์ง ๋ ๋ค์ํ unseen task์ ๋ํด์ ๊ทธ๋ ๊ฒ ์ ์ผ๋ฐํํ ์ ์์๊น? ์ด ์ง๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋
ผ๋ฌธ์์๋ 1,616๊ฐ์ ๋ค์ํ NLP task์ ๋ฒค์น๋งํฌ์ ์ด๋ค์ ์ ๋ฌธ๊ฐ๊ฐ ์์ฑํ instruction์ ํฌํจํ๊ณ ์๋ Super-Natural Instructions๋ฅผ ์๊ฐํ์๋ค. ์ด ํฌ๊ณ ๋ค์ํ task์ ๋ชจ์์ instruction ํ์์ cross-task ์ผ๋ฐํ์ ์ฒ ์ ํ ๋ฒค์น๋งํฌ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค - ๋ชจ๋ธ์ด task์ ์๋ธ์
์์ instruction์ ๋ฐ๋ฅด๋๋ก ํ์ต์ํค๊ณ ๋จ์ ์๋ unseen task์ ๋ํด์ ํ๊ฐํ๋๋ก ํ์๋ค. ๊ฒ๋ค๊ฐ ๋
ผ๋ฌธ์์๋ ๋ค์ํ ๋ฌธ๋งฅ instruction์ ๋ฐ๋ฅด๋..