Paper Reading ๐/Natural Language Processing
The overview of this paper ์ด์ ์ KD๋ ์ฃผ๋ก black-box model API๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด white-box ๋ถ๋ฅ ๋ชจ๋ธ ๋๋ small model์ ํ์ต์ํค๋๋ฐ ์ ์ฉ๋๋ค. white-box ์์ฑ LLM์ผ๋ก๋ถํฐ ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก distill ํ๋์ง๋ ์์ง under-explore ๋์ด ์๋ค. ์ด ๋
ผ๋ฌธ์์๋ forward KLD๋ฅผ reverse KLD๋ก ๋์ฒดํจ์ผ๋ก์จ ์์ฑ์ larger LM์ผ๋ก๋ถํฐ smaller LM์ distill ํ๋ MiniLLM์ ์๊ฐํ์๋ค. ์ด๊ฒ์ student model์ด teacher ๋ถํฌ์ low-probability ์์ญ์ ๊ณผ๋ํ๊ฒ ํ๊ฐํ๋ ๊ฒ์ผ๋ก๋ถํฐ ๋ชจ๋ธ์ ๋ณดํธํ๊ธฐ ๋๋ฌธ์ ์์ฑ์ LM์ ๋์ฑ ์ ํฉํ LM์ด๋ค. MiniLLM์ ์ ๋ฐ์ ์ผ๋ก ๋์ ํ..
Paper Reading ๐/Natural Language Processing
The overview of this paper ์ต๊ทผ ๋ช ๋
๋์ LLM์ ๋ณต์กํ multi-step ์ถ๋ก ์ ์ํํ๊ธฐ ์ํ ๋ฅ๋ ฅ์ด ์๋นํ ๊ฐ์ ๋์๋ค. ํ์ง๋ง, SoTA ๋ชจ๋ธ์ ์์ง ๋
ผ๋ฆฌ์ ์ค๋ฅ๋ฅผ ๋ง๋ค์ด ๋ด๊ธฐ๋ ํ๋ค. ๋์ฑ ์ ๋ขฐ๋ ์๋ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ์ต์ข
๊ฒฐ๊ณผ์ ๋ํด ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ outcome supervision์ผ๋ก ์ ํ๋ ์ ์๋ค. ๋
ผ๋ฌธ์ ์คํ์ ํตํด ์ด๋ ค์ด MATH ๋ฐ์ดํฐ์
์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด process supervision์ด outcome supervision์ ์๋นํ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ํ active learning์ด process supervision์ ํจํ์ ์๋นํ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ 80๋ง ๊ฐ์ step-level human feedback ๋ผ..
Paper Reading ๐/Natural Language Processing
Koala Overview Koala๋ฅผ ์๊ฐํ๋ ํฌ์คํธ์์๋ ์น์ผ๋ก๋ถํฐ ์์ง๋ ๋ํ ๋ฐ์ดํฐ์์ Meta์ LLaMA๋ฅผ fine-tuning ํจ์ผ๋ก์จ ํ์ต๋ ์ฑ๋ด์ธ Koala๋ฅผ ์๊ฐํ์๋ค. ๋ฐ์ดํฐ์
curation๊ณผ training process๋ฅผ ์ค๋ช
ํ๊ณ Koala์ ChatGPT, Alpaca์ ๋น๊ตํ๋ ์ฌ์ฉ์ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ ๋ํ ๋ณด์ฌ์คฌ๋ค. Koala์ ๊ฒฐ๊ณผ๋ Koala๊ฐ ๋ค์ํ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ํจ๊ณผ์ ์ผ๋ก ์๋ตํ ์ ์๊ณ , ์๋ต ์์ฑ๋ Alpaca๋ณด๋ค ๋ ์ ํธ๋์๊ณ , ์ ๋ฐ์ด ๋๋ ๊ฒฝ์ฐ์ ์ต์ํ ChatGPT์ ํ์ด๋ฅผ ์ด๋ฃจ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ถฉ๋ถํ ์์ ๋ชจ๋ธ๋ ์ ์คํ๊ฒ ๋ชจ์ฌ์ง ๋ฐ์ดํฐ์์ ํ์ต๋๋ฉด ์ด ๋ชจ๋ธ๋ค์ ํฐ cousin ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ง์ด ์บก์ฒํ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค. ์ด๊ฒ์ ์ปค๋ฎค๋ํฐ..
Paper Reading ๐/Natural Language Processing
The overview of 'Vicuna' Vicuna 13B๋ ShareGPT๋ก๋ถํฐ ์์ง๋ user-shared ๋ํ์์ fine-tuned LLaMA์์ ํ์ต๋ open-source ์ฑ๋ด์ด๋ค. GPT-4๋ฅผ ํ๊ฐ์๋ก ์ฌ์ฉํ ์ฌ์ ํ๊ฐ๋ Vicuna-13B๊ฐ OpenAI ChatGPT์ Google Bard์ 90%์ ํด๋นํ๋ ํ๋ฆฌํฐ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ๋ฉด LLaMA์ Alpaca๋ณด๋ค 90%์ ๊ฒฝ์ฐ์ ๋ ๋์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. Vicuna-13B์ ํ์ต ๋น์ฉ์ 300$ ์ ๋์ด๋ค. ๊ทธ๋ฆฌ๊ณ Vicuna์ ์ฝ๋์ ๊ฐ์ค์น๋ ๋น์์
์ ์ฌ์ฉ์ ํํด์ ๊ณต๊ฐ๋์๋ค. How Good Is Vicuna? 70K user-shared ChatGPT ๋ํ๋ฅผ ์ฌ์ฉํ์ฌ Vicuna๋ฅผ fine-tuning ํ ํ์, Vicuna๋ Al..
Paper Reading ๐/Natural Language Processing
The overview of this paper weaker LM์ ๊ฐ์ ์ํค๊ธฐ ์ํ ๊ฐ์ผ method๋ stronger model์ output์์ weaker LM์ fine-tune ํ๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ์ weaker open-source ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์
์ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ธ๊ฒ ํ๋ด ๋ด๋ ๋ฐฉ์์ฒ๋ผ ๋ณด์ธ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ์ด ์ ๊ทผ๋ฒ์ ๋ํด ๋ถ์ํ์๋ค. ์ด๋ฅผ ์ํด ๋ค์ํ ๊ท๋ชจ์ ๋ชจ๋ธ ์ฌ์ด์ฆ, ๋ฐ์ดํฐ ์์ค, ๋ชจ๋ฐฉ ๋ฐ์ดํฐ์ ์์ ์ฌ์ฉํด์ ChatGPT๋ฅผ ๋ชจ๋ฐฉํ๋ LM์ ์๋ฆฌ์ฆ๋ฅผ fine-tune ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ธ์ crwodworker & NLP ๋ฒค์น๋งํฌ์์ ๋ชจ๋ธ์ ํ๊ฐํ์๋ค. ์ด๊ธฐ์ ๋
ผ๋ฌธ์์๋ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ ์ถ๋ ฅ ํ๋ฆฌํฐ์ ๋ํด ๋๋๋ค! ์๋ํ๋ฉด ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ์ถ๋ ฅ์ด instruction์ ..
Paper Reading ๐/Natural Language Processing
์ต๊ทผ Hugging Face์ Open LLM Leaderboard๋ฅผ ๋๋ฌ๋ณด๋ ์ค ์๋ก์ด ๋ชจ๋ธ์ด ๋ฆฌ๋๋ณด๋์ 1๋ฑ์ ์์นํด ์๋ ๊ฒ์ ๋ณด๊ณ '์ด๋ค ๋ชจ๋ธ์ด์ง?'๋ผ๋ ๊ถ๊ธ์ฆ์ด ์๊ฒจ์ ์ด๋ ๊ฒ ํฌ์คํ
์ ์์ฑํด ๋ณธ๋ค. ์๋กญ๊ฒ 1๋ฑ์ ์ฐจ์งํ ๋ชจ๋ธ์ ๋ฐ๋ก TII์์ ๊ฐ๋ฐํ Falcon๐ฆ
์ด๋ผ๋ ๋ชจ๋ธ์ด๋ค. Falcon์ ์ด 4๊ฐ์ง ๋ฒ์ ์ ๋ชจ๋ธ์ด ์กด์ฌํ๋๋ฐ, 7B & 40B ์ฌ์ด์ฆ์ ๋ชจ๋ธ๊ณผ ๊ฐ ์ฌ์ด์ฆ์์ ๊ทธ๋ฅ base ๋ฒ์ ๊ณผ instruct-tuned ๋ฒ์ ๊น์ง ํด์ 4๊ฐ์ด๋ค. ๊ทธ์ค์ 40B ์ฌ์ด์ฆ์ instruct-tuned ๋ฒ์ ์ธ 'falcon-40b-instruct'๊ฐ Leaderboard์์ 1๋ฑ์ ์ฐจ์งํ์๋ค. ์ด๋ฒ ํฌ์คํ
์์๋ ์ด๋ฌํ Falcon ๋ชจ๋ธ์ ๋ํด ์์๋ณด๊ณ Falcon์ ๋ง๋๋ ๋ฐ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ ๋ฐ์ดํฐ..
Paper Reading ๐/Natural Language Processing
The overview of this paper ChatGPT ๊ฐ์ chat ๋ชจ๋ธ๋ค์ ์ธ์์ ์ธ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉด์ ๋น ๋ฅด๊ฒ ์ฌ๋ฌ ๋๋ฉ์ธ์ ์ ์ฉ๋์ด ๋๊ฐ๊ณ ์๋ค. ํ์ง๋ง, ์ ํ๋ API ๋๋ฌธ์ ์๋ก์ด ์ฐ๊ตฌ์ ์ฅ์ ๋ฌผ์ ๋ง๋ค๊ณ ์๋ค. ๋
ผ๋ฌธ์์๋ ChatGPT๋ฅผ ๋ํ์ ์ฐธ์ฌ์ํค๊ฒ ํ์ฉํจ์ผ๋ก์จ ์๋์ ์ผ๋ก high-quality multi-turn chat corpus๋ฅผ ์์ฑํ ์ ์๋ ํ์ดํ๋ผ์ธ์ ์ ์ํ์๋ค. ๊ทธ๋ค์์ ์ด ๋ฐ์ดํฐ๋ค์ parameter-efficient tuning์ผ๋ก LLaMA๋ฅผ ํฅ์ํ๊ธฐ ์ํด ์ฌ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์ํ ๋ชจ๋ธ์ด Baize์ด๊ณ , ์ด ๋ชจ๋ธ์ ๊ฐ๋๋ ์ผ์ด ์๋ multi-turn dialogue ์ธํ
์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ฒ๋ค๊ฐ, ChatGPT์ ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ Baize ๋ชจ๋ธ์ ์ฑ..
Paper Reading ๐/Natural Language Processing
์ค์ Sparks of AGI: with GPT-4 ๋
ผ๋ฌธ์ 155ํ์ด์ง์ ์ก๋ฐํ ์ ๋๋ก ์์ฒญ๋ ์์ ์คํ์ ์งํํด ๋ณด๋ฉฐ GPT-4๋ฅผ ๋ค๋ฐฉ๋ฉด์ผ๋ก ํ์ฉํด ๋ณด์ง๋ง, ๋ณธ ํฌ์คํ
์์๋ ๊ทธ ๋ง์ ๋ด์ฉ์ ๋ค๋ฃจ๊ธฐ์๋ ํ์ด ๋ฒ
์ฐจ์ ์ค์ ๋ถ๋ถ๋ค๋ง ๋ฐ๋ก ์ดํด๋ณด์๋ค. ์ด ํฌ์คํ
์ ๋ค์์ ์ ํ๋ธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. ์ ํ๋ธ: https://www.youtube.com/watch?v=Mqg3aTGNxZ0 The overview of this paper AI ์ฐ๊ตฌ์๋ค์ ๋ค์ํ ๋๋ฉ์ธ๊ณผ task์์ ๊ด๋ชฉํ ๋งํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ LLM์ ๊ฐ๋ฐํ๊ณ ๊ฐ์ ์ํค๊ณ ์๋ค. OpenAI์์ ๊ฐ๋ฐํ GPT-4๋ ์ ๋ก ์๋ ๊ท๋ชจ์ ๊ณ์ฐ๋๊ณผ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ํ์ต๋์๋ค. ์ด ๋
ผ๋ฌธ์์๋ GPT-4๊ฐ ์ด์ AI ๋ชจ๋ธ๋ณด๋ค ๋ ์ผ๋ฐ์ ์ธ ์ง๋ฅ์ ๋ํ๋ด๋ ์..
Paper Reading ๐/Natural Language Processing
The overview of this paper ๊ฑฐ๋ PLM์ ๋๋ผ์ด in-context learning(ICL) ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ๋๋ผ์ด ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ค์ ๋ฉ์ปค๋์ฆ์ ์์ง open question์ผ๋ก ๋จ์์๋ค. ๊ทธ๋์ ์ด ๋
ผ๋ฌธ์์๋ LM์ meta-optimizer๋ก ์ค๋ช
ํ๊ณ in-context learning์ ์๋ฌต์ ์ธ fine-tuning์ผ๋ก ์ดํดํ๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ก ์ ์ผ๋ก attention์ ๋ค๋ฅธ ํํ์ gradient descent๋ผ๋ ๊ฒ์ ์์๋๋ค. ๋
ผ๋ฌธ์์๋ in-context learning์ ๋ค์๊ณผ ๊ฐ์ด ์ดํดํ์๋ค. GPT๊ฐ demonstration example์ ๋ฐ๋ผ์ meta-gradient๋ฅผ ์์ฑํ๊ณ , ์ด ๊ธฐ์ธ๊ธฐ๋ ICL ๋ชจ๋ธ ์์ฑ์ ์ํด ๊ธฐ์กด์ GPT์..
Paper Reading ๐/Natural Language Processing
The overview of this paper LLM์ fine-tune ํ๋๋ฐ ๊ด๋ฒ์ํ supervision์ ํ์๋ก ํ๋ ๋ฐ๋ฉด์ ์ฌ๋์ ์ธ๋ถ์ ์
๋ ฅ ์์ด self-thinking์ ํจ์ผ๋ก์จ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค. ์ด ๋
ผ๋ฌธ์์๋ LLM๋ ์ค์ง unlabeled dataset๋ง์ ์ฌ์ฉํ์ฌ self-improve ํ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช
ํ๋ค. ๋
ผ๋ฌธ์์๋ CoT prompting๊ณผ Self-Consistency๋ฅผ ์ฌ์ฉํด์ unlabeled question์ ๋ํ 'high-confidence' ratinoale-augmented answer๋ฅผ ์์ฑํ๊ธฐ ์ํด PLM์ ์ฌ์ฉํ๊ณ ์ด self-generated solution์ ์ด self-generated solution์ ํ๊น output์ผ๋ก ํด์ ..
'Paper Reading ๐' ์นดํ
๊ณ ๋ฆฌ์ ๊ธ ๋ชฉ๋ก (2 Page)
๋จ์ถํค
๋ด ๋ธ๋ก๊ทธ
๋ด ๋ธ๋ก๊ทธ - ๊ด๋ฆฌ์ ํ ์ ํ |
Q
Q
|
์ ๊ธ ์ฐ๊ธฐ |
W
W
|
๋ธ๋ก๊ทธ ๊ฒ์๊ธ
๊ธ ์์ (๊ถํ ์๋ ๊ฒฝ์ฐ) |
E
E
|
๋๊ธ ์์ญ์ผ๋ก ์ด๋ |
C
C
|
๋ชจ๋ ์์ญ
์ด ํ์ด์ง์ URL ๋ณต์ฌ |
S
S
|
๋งจ ์๋ก ์ด๋ |
T
T
|
ํฐ์คํ ๋ฆฌ ํ ์ด๋ |
H
H
|
๋จ์ถํค ์๋ด |
Shift + /
โง + /
|
* ๋จ์ถํค๋ ํ๊ธ/์๋ฌธ ๋์๋ฌธ์๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํฐ์คํ ๋ฆฌ ๊ธฐ๋ณธ ๋๋ฉ์ธ์์๋ง ๋์ํฉ๋๋ค.