The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ Self-Refine์ ์๊ฐํ์๋ค. Self-Refine์ ๋ฐ๋ณต์ ์ธ ํผ๋๋ฐฑ๊ณผ ๊ฐ์ ์ ํตํด LLM์ ์ด๊ธฐ output์ ๊ฐ์ ์ํค๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค. Self-Refine์ ์ฃผ๋ ์์ด๋์ด๋ LLM์ ์ฌ์ฉํด ์ด๊ธฐ output์ ์์ฑํ๊ณ , ๊ทธ๋ค์์ ๋๊ฐ์ LLM์ด output์ ๋ํด ํผ๋๋ฐฑ์ ์ ๊ณตํ๊ณ ์ด ํผ๋๋ฐฑ์ ์ฌ์ฉํด ๋ฐ๋ณต์ ์ผ๋ก ์๊ธฐ ์์ ์ ๊ฐ์ ํด ๋๊ฐ๋ ๊ฒ์ด๋ค. ํ ๋ง๋๋ก Self-Refine์ ํ๋์ LLM์ generator, refiner, feedback provider๋ก ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
Self-Refine์ ๋ชจ๋ ํ๊ฐ๋ task์์ Self-Refine์ผ๋ก ์์ฑ๋ output์ ๊ธฐ์กด์ ๋๊ฐ์ LLM์ผ๋ก ์์ฑ๋ output๋ณด๋ค human & automatic ํ๊ฐ metric์์ ๋ ์ ํธ๋์๋ค. ๊ทธ๋ฆฌ๊ณ GPT-4 ๊ฐ์ SoTA LLM๋ test-time์ Self-Refine์ ์ด ๋ฐฉ์์ ์ฌ์ฉํด์ ์ถ๊ฐ์ ์ผ๋ก ๊ฐ์ ๋ ์ ์๋ค๊ณ ์ค๋ช ํ์๋ค.
Table of Contents
1. Introduction
2. Iterative Refinement with Self-Refine
3. Evaluation
4. Analysis
5. Limitation
1. Introduction
๋ ผ๋ฌธ์์๋ LLM์ด ์ถ๊ฐ์ ํ์ต ์์ด ๋ฐ๋ณต์ ์ธ self-refinement๋ฅผ ์ ๊ณตํด์ ๋ค์ํ task์์ high-quality output์ ์ด๋ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช ํ์๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ํ ๋๋ก Self-Refine์ ์๊ฐํ์๋ค. Self-Refine์ feedback๊ณผ refinement์ 2๊ฐ์ ์์ฑ ์คํ ๊ฐ์ ๋ฒ๊ฐ์๊ฐ๋ฉฐ ์ผ์ด๋๋ ๋ฐ๋ณต์ self-refinement ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๋ชจ๋ธ $M$์ ์ํด ์์ฑ๋ ์ด๊ธฐ output์ด ์ฃผ์ด์ง๋ฉด, ์ด output์ ๋ค์ ๋๊ฐ์ ๋ชจ๋ธ $M$์๊ฒ ์ค์ ํผ๋๋ฐฑ์ ์ป์๋ค. ๊ทธ๋ค์์ ํผ๋๋ฐฑ์ ๋๊ฐ์ ๋ชจ๋ธ์ ๋ค์ด๊ฐ์ ์ด์ ์ ์์ฑ๋ ์ด์์ ๊ฐ์ ์ํฌ ์ ์์๋ค. ๊ทธ๋ฆผ 1์ '๋๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ํผ๋๋ฐฑ์ ์์ฑํ๊ณ ๋ชจ๋ธ์ output์ ๊ฐ์ ์ํจ๋ค' ๋ผ๋ Self-Refine์ high-level ์์ด๋์ด๋ฅผ ๋ณด์ฌ์ค๋ค.
Self-Refine์ ๊ฐ๋ ฅํ LLM์ direct generation์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ LLM์ด ์ฒซ ์๋์ ์ต์ ์ ์๋ต์ ์์ฑํ์ง ๋ชปํ๋๋ผ๊ณ , LLM์ ์ข ์ข ์ ์ฉํ ํผ๋๋ฐฑ์ ์ ๊ณตํ ์ ์๊ณ , ๊ทธ์ ๋ฐ๋ผ output์ ๊ฐ์ ์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ตญ, Self-Refine์ ์ด๋ ํ ์ถ๊ฐ์ ํ์ต ์์ด ๋ฐ๋ณต์ feedback & refinement๋ฅผ ํตํด single model๋ก๋ถํฐ ๋ ๋์ output์ ์ป๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ๊ณตํด ์ค๋ค.
2. Iterative Refinement with Self-Refine
input ์ํ์ค๊ฐ ์ฃผ์ด์ง๋ฉด, Self-Refine์ ์ด๊ธฐ output์ ์์ฑํ๊ณ , output์ ํผ๋๋ฐฑ์ ์ ๊ณตํด ์ฃผ๊ณ , ํผ๋๋ฐฑ์ ๋ฐ๋ผ output์ ๊ฐ์ ์ํจ๋ค. Self-Refine์ ์ํ๋ ์กฐ๊ฑด์ ๋ง์กฑํ ๋๊น์ง feedback & refine์ ๋ฐ๋ณตํ๋ค. ๊ทธ๋ฆฌ๊ณ Self-Refine์ ์ ์ ํ LM๊ณผ 3๊ฐ์ prompt์ ์์กดํ๊ณ , training์ ๋ฐ๋ก ํ์๋ก ํ์ง ์๋๋ค.
Initial generation. input $x$, prompt $p_{gen}$, ๋ชจ๋ธ $M$์ด ์ฃผ์ด์ง๋ฉด, Self-Refine์ ์ด๊ธฐ output $y_{0}$์ ์์ฑํ๋ค:
์ฌ๊ธฐ์ $p_{gen}$์ ์ด๊ธฐ ์์ฑ์ ์ํ task-specific few-shot prompt์ด๊ณ , ||๋ ์ฐ๊ฒฐ์ ์๋ฏธํ๋ค. few-shot prompt $p_{fb}$๋ task์ ๋ํ input-output ์ $\left< x^{(k)}, y^{(k)}\right>$์ ํฌํจํ๊ณ ์๋ค.
Feedback. ๊ทธ๋ค์์ ํผ๋๋ฐฑ ์์ฑ์ ์ํด task-specific prompt $p_{fb}$๊ฐ ์ฃผ์ด์ง๋ฉด, Self-Refine์ ๋๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ output์ ํผ๋๋ฐฑ $f_{bt}$๋ฅผ ์ ๊ณตํด ์ค๋ค:
์ง๊ด์ ์ผ๋ก, ํผ๋๋ฐฑ์ output์ ์ฌ๋ฌ ์ธก๋ฉด์ ํด๊ฒฐํ ์ ์์ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ prompt $p_{fb}$๋ input-output-feedback $\left< x^{(k)}, y^{(k)}, fb^{(k)}\right>$ํํ์์ ํผ๋๋ฐฑ์ ์์๋ฅผ ์ ๊ณตํด ์ค๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ด $fb^{(k)}$๋ฅผ ํตํด actionableํ๊ณ specificํ ํผ๋๋ฐฑ์ ์์ฑํ๋๋ก ์ด์งํ์๋ค. ์ฌ๊ธฐ์ actionable & specific์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- actionable: ํผ๋๋ฐฑ์ด output์ ๊ฐ์ ์ํฌ ์ ์์ ๊ฒ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ action์ ํฌํจํด์ผ ํจ
- specific: ํผ๋๋ฐฑ์ ๋ณํํ๊ธฐ ์ํด output์์ ๊ตฌ์ฒด์ ์ธ ๊ตฌ๋ฌธ์ ํ๋ณํ ์ ์์ด์ผ ํจ
Refine. Self-Refine์ ํผ๋๋ฐฑ์ด ์ฃผ์ด์ง๋ฉด ๊ฐ์ฅ ์ต๊ทผ์ output์ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋ชจ๋ธ $M$์ ์ฌ์ฉํ๋ค:
์ฌ๊ธฐ์ prompt $p_{refine}$์ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐํ output ๊ฐ์ ์ ์์๋ฅผ ์ ๊ณตํด์ค๋ค. ์ด prompt์ ํํ๋ input-output-feedback-refined $\left< x^{(k)}, y^{(k)}, fb_{t}^{(k)}, y_{t+1}^{(k)}\right>$์ด๋ค.
Iterating Self-Refine. Self-Refine์ Feedback & Refine ์คํ ์ ์กฐ๊ฑด์ ๋ถํฉํ ๋๊น์ง ๋ฐ๋ณตํ๋ค. ์คํ ์กฐ๊ฑด์ ๋ช ์๋ ์์ ์์ ๋ฉ์ถ๊ฑฐ๋ ํผ๋๋ฐฑ์ผ๋ก๋ถํฐ ์คํ ์งํ๋ฅผ ์ถ์ถํ ๋ ๋ฉ์ถ๊ฒ ๋๋ค.
๋ชจ๋ธ์๊ฒ ์ด์ ๋ฐ๋ณต์ ๋ํด ์๋ ค์ฃผ๊ธฐ ์ํด ์ด๋ค์ prompt๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์ด์ ํผ๋๋ฐฑ๊ณผ output์ ํ์คํ ๋ฆฌ๋ฅผ ์ป์ ์ ์๊ฒ ๋๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ด ๊ณผ๊ฑฐ์ ์ค์๋ก๋ถํฐ ๋ฐฐ์ฐ๊ณ ์ด ์ค์๋ฅผ ๋ฐ๋ณตํ์ง ์๊ฒ ํด ์ค๋ค. ์ด๋ฅผ ์์ Refine ์์์ ์ ์ฉํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
์ต์ข ์ ์ผ๋ก ์ต์ข ๊ฐ์ ์ $y_{t}$๋ฅผ Self-Refine์ output์ผ๋ก ์ฌ์ฉํ๋ค.
์๊ณ ๋ฆฌ์ฆ 1์ Self-Refine์ ์์ฝํด์ ๋ณด์ฌ์ฃผ๊ณ ์๊ณ , ๊ทธ๋ฆผ 2๋ Dialogue Response Generation๊ณผ Code Optimization์์ Self-Reinfe์ ์์๋ฅผ ๋ณด์ฌ์ค๋ค. Self-Refine์ ํต์ฌ ์์ด๋์ด๋ Self-Refine์ generation, feedback, refine์ ์ํด ๋ชจ๋ ๋๊ฐ์ LM์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค.
3. Evaluation
๋ ผ๋ฌธ์์๋ Self-Refine์ 7๊ฐ์ ๋ค์ํ task์์ ํ๊ฐํ์๋ค: Dialogue Response Generation, Code Optimization, Code Readability Improvement, Math Reasoning, Sentiment Reversal๊ณผ ์๋ก์ด 2๊ฐ์ task์ธ Acronym Generation, Constrained Generation.
3-1. Instantiating Self-Refine
Feedback-Refine์ ๋ฐ๋ณต์ ์ํ๋ output ํ๋ฆฌํฐ๋ฅผ ์ป๊ฑฐ๋ task-specific ๊ธฐ์ค์ ๋๋ฌํ ๋๊น์ง ์ต๋ 4๋ฒ์ ๋ฐ๋ณต์ด ๊ณ์๋๋ค. ๋ ผ๋ฌธ์์๋ Feedback๊ณผ Refine์ few-shot prompt๋ก instruction์ ์ ๋๋ตํ๋ ChatGPT์ GPT-4 ๊ฐ์ ๋ชจ๋ธ๊ณผ ํจ๊ป ๊ตฌํํ์๋ค.
Base LLMs. ์ด ์คํ์ ์ฃผ๋ ๋ชฉํ๋ Self-Refine์ ์ฌ์ฉํด์ ์ด๋ค ๊ฐ๋ ฅํ base LLM์ด๋ ๊ฐ์ ์ํฌ ์ ์๋์ง ํ๊ฐํ๋ ๊ฒ์ด๋ค. ๊ทธ๋์ Self-Refine์ ๋๊ฐ์ base LLM์ด์ง๋ง, Feedback-Refine์ด ์๋ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์๋ค. ์ด๋ฅผ ์ํด GPT-3.5, ChatGPT, GPT-4 ์ด๋ ๊ฒ 3๊ฐ์ base LLM์ ์ฌ์ฉํ์๋ค.
3-2. Metrics
๋ ผ๋ฌธ์์๋ 3๊ฐ์ง ์ ํ์ metric์ ๊ธฐ๋กํ์๋ค:
- Task specific metric: ์ด์ ์ฐ๊ตฌ๋ค์ metric์ ์ฌ์ฉํจ
- Human-pref: ์๋ํ๋ metric์ผ๋ก ํ๊ฐ๊ฐ ๋ถ๊ฐ๋ฅํ ์์ญ์ human preference๋ก ํ๊ฐํจ
- GPT-4 pref: GPT-4๋ฅผ human annotator์ ๋์ฒด์๋ก ์ฌ์ฉํจ
3-3. Results
ํ 1์ ์คํ์ ๋ฉ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
Self-Refine์ ์ผ๊ด์ ์ผ๋ก base model์ ์ฑ๋ฅ์ ๊ฐ์ ์์ผ ์ค. ํ 1์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด Self-Refine์ ๋ชจ๋ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๊ฑธ์ณ์ ์ด์ ์ SoTA๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค. ๋ํ Dialogue Response Generation, Sentiment Reversal, Acronym Generation ๊ฐ์ ์ ํธ๋ ๊ธฐ๋ฐ task์๋ Self-Refine์ ์๋นํญ ์ฑ๋ฅ ํฅ์์ ์ด๋์๋ค.
Math Reasoning์์๋ ์์ํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋๋ฐ, ์ด๊ฒ์ ์ ํํ ์ด๋์ ์ค๋ฅ๊ฐ ์๋์ง ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณธ๋ค๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ํ์์ ์ค๋ฅ๋ ๋ฏธ๋ฌํ๊ณ , ๊ฐ๋์ ํ๋์ ๋ผ์ธ ๋๋ ์๋ง์ง ์์ ์ฐ์ฐ์ ์ ํ๋ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
base LLM size์ ๊ฑธ์ณ์ ์ฑ๋ฅ ๊ฐ์ ์ ์ผ๊ด์ ์ด์์. Self-Refine์ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ด ์ด๋ค์ ์ ์ฌ๋ ฅ์ ํด๊ธํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ์ด๋ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
4. Analysis
Self-Refine์ 3๊ฐ์ง ์ค์ํ ์คํ ์ Feedback, Refine, ์ด๋ค์ ๋ฐ๋ณต์ด๋ค. ์ด ์น์ ์์๋ ์ถ๊ฐ์ ์คํ์ ํตํด ๊ฐ๊ฐ์ ์คํ ์ ํจ๊ณผ๋ฅผ ๋ถ์ํ์๋ค.
Feedback ํ๋ฆฌํฐ์ ์ํฅ. Self-Refine๊ณผ generic feedback, w/o feedback์ ๋น๊ตํ์๋ค. ์ฌ๊ธฐ์ generic feddback์ด๋ actionable & specific feedback ๋ณด๋ค ์ ํ์ฑ๊ณผ ๋ฐฉํฅ์ฑ์ด ๋ถ์กฑํ feedback์ด๋ค.
ํ 2์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด generic feedback์ด ์ด๋ ์ ๋์ ์ง๋๋ฅผ ์ ๊ณตํด ์ฃผ์ง๋ง, specific & actionable feedback์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ผ์ ์ด๋ Self-Refine์์ specific & actionable ํ ํผ๋๋ฐฑ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ค.
Feedback-Refine์ ์ฌ๋ฌ ๋ฐ๋ณต์ด ์ผ๋ง๋ ์ค์ํ ๊น? ๊ทธ๋ฆผ 3์ ๋ฐ๋ณต์ ์๊ฐ ์ฆ๊ฐ๋จ์ ๋ฐ๋ผ output์ ํ๋ฆฌํฐ๊ฐ ๊ฐ์ ๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ํ ๋ฐ๋ณต์ ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐ์ ์ ์ ๋๊ฐ ์ค์ด๋๋ ๊ฒ๋ ๋ณด์ฌ์ค๋ค. ์ ๋ฐ์ ์ผ๋ก ์ฌ๋ฌ Feedback-Refine ๋ฐ๋ณต์ ๊ฐ์ง๋ ๊ฒ์ output์ ํ๋ฆฌํฐ๋ฅผ ์๋นํ ํฅ์์ํจ๋ค. ๋น๋ก ๊ฐ์ ์ ์ ๋๋ ๋ฐ๋ณต์ด ๋ง์์ง์๋ก ์ค์ด๋ค์์ง๋ง ๋ง์ด๋ค.
๋ํ ์ฑ๋ฅ์ ๋ฐ๋ณต์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋จ์กฐ๋กญ๊ฒ ์ฆ๊ฐํ์ง๋ ์์๋ค. output ํ๋ฆฌํฐ๋ ํ๋ฆฌํฐ ์ธก๋ฉด์ ๋ฐ๋ผ ๊ฐ์ ๋๊ฑฐ๋ ๊ฐ์ํ๊ธฐ๋ ํ๋ค. ์ด๋ฅผ ๋์ํ๊ธฐ ์ํด, Self-Refine์ ์๋ก ๋ค๋ฅธ ํ๋ฆฌํฐ ์ธก๋ฉด์ ์ซ์๋ก ๋ score๋ฅผ ์์ฑํด์ ๋ฐธ๋ฐ์ค ์กํ ํ๊ฐ๋ก ์ด๋๊ณ ์ ์ ํ output ์ ํ์ ์ด๋์๋ค.
refining ๋์ ์ ๊ทธ์ ์ฌ๋ฌ output์ ์์ฑํด๋ ๋ ๊น? ChatGPT์ $k$๊ฐ์ ์ํ๊ณผ Self-Refine์ output์ ๋น๊ตํ์๋ค. ๊ทธ๋๋ Self-Refine์ ์๋ต์ด ๋ ์ ํธ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ Feedback์ ๋ฐ๋ฅธ Refine์ ์ค์์ฑ์ ๋ณด์ฌ์ค๋ค.
Self-Refine์ weaker model์์๋ ์๋ํ ๊น? ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด Vicuna-13B๋ก Self-Refine์ ๊ตฌํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด๊ธฐ์ output์ ์ ์์ฑํ์์ผ๋, refinement ํ๋ก์ธ์ค์์ ์ด๋ ค์์ ๊ฒช๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. output์ ๊ฐ์ ํ๊ธฐ๋ณด๋ค๋ ๋๊ฐ์ output์ ๋ฐ๋ณตํด์ ์ถ๋ ฅํ๊ฑฐ๋, hallucination์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ Vicuna-13B๊ฐ ๋ํ ๋ฐ์ดํฐ์์ ํ์ต๋์๊ธฐ ๋๋ฌธ์ instruction-based ๋ชจ๋ธ๋งํผ ์ ์ผ๋ฐํํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ ผ๋ฌธ์์๋ ์ฃผ์ฅํ์๋ค.
Qualitative Analysis. ๋ ผ๋ฌธ์์๋ Self-Refine์ ์ํด ์์ฑ๋ ํผ๋๋ฐฑ์ ํ๋ฆฌํฐ ๋ถ์๊ณผ ์ดํ์ ๊ฐ์ ์ ํ๋ฆฌํฐ ๋ถ์์ ์ํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ Math Reasoning & Code Optimization์์ ํผ๋๋ฐฑ์ด actionable ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
Self-Refine์ด ๊ธฐ์กด ์์ฑ์ ๊ฐ์ ํ๋๋ฐ ์คํจํ์ ๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ๋ ์๋ชป๋ ํผ๋๋ฐฑ ๋๋ฌธ์ด์๋ค. ์ด๋ Self-Refine์์ ์ ํํ ํผ๋๋ฐฑ์ ์ค์ํ ์ญํ ์ ๊ฐ์กฐํ๋ค.
๊ทธ๋ฆฌ๊ณ ํฅ๋ฏธ๋กญ๊ฒ๋ refiner๋ ํผ๋๋ฐฑ์ด ๋ถ๋ถ์ ์ผ๋ก ์๋ง์ง ์์ ๋์๋ ๋ฌธ์ ์ ์ ๋ฐ๋ก ์ก์ ์ ์์๋ค.
4. Limitations
Self-Refine ๋ฐฉ์์ ์ฃผ๋ ํ๊ณ์ ์ base model์ ์ถฉ๋ถํ few-shot ๋ชจ๋ธ๋ง ๋๋ instruction-following ๋ฅ๋ ฅ์ ๊ฐ์ ธ์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ Open-source model๋ก ์ฐ๊ตฌ๋ฅผ ์งํํ์ง ์์๋ค. ์ถ๊ฐ์ ์ผ๋ก ์์ด๋ก๋ง ์คํ์ด ์งํ๋ผ์ ๋ค๋ฅธ ์ธ์ด์์๋ ๋๊ฐ์ ์ด์ต์ ์ ๊ณตํด ์ค ์ ์์ ๊ฒ์ด๋ค.
์ถ์ฒ
https://arxiv.org/abs/2303.17651