The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ์ง ์๊ณ ๋์ ์ ์ธ์ด์ ํผ๋๋ฐฑ์ ํตํด language agent๋ฅผ ๊ฐํํ๊ธฐ ์ํ ์๋ก์ด ํ๋ ์์ํฌ์ธ Reflexion์ ์๊ฐํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Reflexion agent๋ task ํผ๋๋ฐฑ ์ ํธ์ ๋ํด ์ธ์ด๋ก ๋ํ๋ด๊ณ , ๊ทธ๋ค์์ ์ดํ์ ์๋์ ๋ ๋์ ์์ฌ ๊ฒฐ์ ์ ์ ๋ฐํ๊ธฐ ์ํด ๋ฉ๋ชจ๋ฆฌ ๋ฒํผ์ ์ด๋ค๋ง์ reflective text๋ฅผ ์ ์งํ๋ค. Reflexion์ ๋ค์ํ ํ์ ๊ณผ ์์ค์ ํผ๋๋ฐฑ ์ ํธ๋ฅผ ํฌํจํ ์ ์์ ์ ๋๋ก ์ถฉ๋ถํ ์ ์ฐํ๊ณ , ๋ค์ํ task์ ๊ฑธ์ณ์ baseline agent์ ๋นํด์ ์๋นํ ๊ฐ์ ์ ์ป์๋ค.
Table of Contents
1. Introduction
2. Reflexion: reinforcement via verbal reflection
3. Experiments
4. Conclusion
1. Introduction
๋ ผ๋ฌธ์์๋ ์ด์ ์ ์คํจ๋ก๋ถํฐ agent์ ํ์ต์ ๋๊ธฐ ์ํด ์ธ์ด ๊ฐํ๋ฅผ ์ฌ์ฉํ๋ Reflexion์ด๋ผ๋ ๋์์ฑ ์ ์ ์ํ์๋ค. Reflexion์ binary ๋๋ scalar ํผ๋๋ฐฑ์ text ์์ฝ์ ํํ๋ก ํ๊ฒฝ์์ ์ธ์ด ํผ๋๋ฐฑ์ผ๋ก ๋ณํํ๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ํ ์คํธ ์์ฝ์ ๋ค์ ์ํผ์๋์ LLM agent๋ฅผ ์ํ ์ถ๊ฐ์ context๋ก ์ถ๊ฐ๋๋ค. ์ด self-reflective feedback์ agent์๊ฒ ๊ฐ์ ํ๊ธฐ ์ํ ๊ตฌ์ฒด์ ์ธ ๋ฐฉํฅ์ ์ ๊ณตํจ์ผ๋ก์จ 'semnatic' ๊ธฐ์ธ๊ธฐ ์ ํธ์ฒ๋ผ ์๋ํ๊ณ , ์ด๋ task๋ฅผ ๋ ์ ์ํํ๊ธฐ ์ํด ์ด์ ์ ์ค์๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ ๋์์ค๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ฌ๋์ด ๋ณต์กํ task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๋ ๊ฒ๊ณผ ์ ์ฌํ๋ค. ์๋ฅผ ๋ค์ด ๊ทธ๋ฆผ 1์์ Reflxion agent๋ ์ฌ๋ฌ task์ ๋ํด ์ต์ ํํ๊ธฐ ์ํด ํ์ต๋๋ค.
์ ์ฉํ reflective ํผ๋๋ฐฑ์ ์์ฑํ๋ ๊ฒ์ ์๋นํ ์ด๋ ต๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ง๋ค์ด๋ด๋ ์ค์์ ๋ํ ์ข์ ์ดํด๋ฟ๋ง ์๋๋ผ ๊ฐ์ ์ ์ํ ํต์ฐฐ๋ ฅ์ ํจ์ ํ๋ ์์ฝ์ ์์ฑํ๋ ๋ฅ๋ ฅ๋ ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ํ๊ธฐ ์ํ 3๊ฐ์ง ๋ฐฉ๋ฒ์ ํ๊ตฌํ์๋ค.
- ๊ฐ๋จํ binary ํ๊ฒฝ ํผ๋๋ฐฑ
- ์ผ๋ฐ์ ์ธ ์คํจ ์ฌ๋ก์ ๋ํ ์ฌ์ ์ ์ ์๋ ํด๋ฆฌ์คํฑ
- self-evaluation
๋ํ, Reflexion์ ์ ํต์ ์ธ RL ๋ฐฉ์๋ค๊ณผ ๋น๊ตํด์ ๋ค์๊ณผ ๊ฐ์ ์ฌ๋ฌ ์ฅ์ ์ ๊ฐ์ง๋ค. ๋์์ LLM์ ์๊ฐ ํ๊ฐ ์ญ๋์ ํ์ ์์กดํ๊ณ , ์ฑ๊ณต์ ๋ํ ๋ณด์ฅ์ด ์๋ค๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ํ์ง๋ง, LLM ๋ฅ๋ ฅ์ด ๊ฐ์ ๋จ์ ๋ฐ๋ผ ์ด ํจ๋ฌ๋ค์์ ์ ์ ๋์์ง ๊ฒ์ด๋ผ ์์ธกํ๋ค.
- lightweight ํ๊ณ , LLM fine-tuning์ ํ์๋ก ํ์ง ์์
- ๋์ฑ ๋ฏธ๋ฌํ ํํ์ ํผ๋๋ฐฑ
- ๋์ฑ ๋ถ๋ช ํ๊ณ ํด์ ๊ฐ๋ฅํ ํํ์ episodic ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ๋ฝํด ์ค
- ํฅํ ์ํผ์๋์์ ํ๋์ ๋ํ ๋์ฑ ๋ถ๋ช ํ ํํธ๋ฅผ ์ ๊ณตํด ์ค
๋ ผ๋ฌธ์ contribution์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
- policy๋ฅผ LLM ํ๋ผ๋ฏธํฐ์ ์ ํ๊ณผ ํจ๊ป agent์ ๋ฉ๋ชจ๋ฆฌ ์ธ์ฝ๋ฉ ์์ผ๋ก ํ๋ผ๋ฏธํฐํ ๋๋ ์ธ์ด ๊ฐํ์ ๋ํ ์๋ก์ด ํจ๋ฌ๋ค์์ธ Reflexion์ ์ ์ํ์์
- LLM์์ self-reflection์ ์ ๋งํ ํน์ฑ์ ํ๊ตฌํ๊ณ ์คํ์ ์ผ๋ก ๋ณต์กํ task๋ฅผ ํ์ตํ๊ธฐ ์ํด ๋งค์ฐ ์ ์ฉํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
- code-generation RL gym์ธ LeetcodeHardGym์ ์๊ฐํจ
- Reflexion์ ์ฌ๋ฌ task์ ๊ฑธ์ณ์ ๊ฐ๋ ฅํ baseline์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ , SoTA๋ ๋ฌ์ฑํ์์
2. Reflexion: reinforcement via verbal reflection
๋ ผ๋ฌธ์์๋ 3๊ฐ์ ๋ณ๊ฐ์ ๋ชจ๋ธ์ ํ์ฉํ๋ Reflexion์ ๊ฐ๋ฐํ์๋ค. 3๊ฐ์ ๋ณ๊ฐ์ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Actor($M_{a}$): text & action ์์ฑ
- Evaluator($M_{e}$): $M_{a}$์ ์ํด ์์ฑ๋๋ output์ ์ ์๋ฅผ ๋งค๊น
- Self-Reflection($M_{sr}$): self-improvement์์ Actor๋ฅผ ๋๊ธฐ ์ํด ์ธ์ด ๊ฐํ ์ ํธ๋ฅผ ์์ฑํจ
Actor. Actor๋ ์ํ ๊ด์ฐฐ์ ๋ง์ถ ํ์์ ์ธ text์ action์ ์์ฑํ๋๋ก ๊ตฌ์ฒด์ ์ผ๋ก prompt ๋๋ LLM ์์ ๋ง๋ค์ด์ง๋ค. ์ ํต์ ์ธ ์ ์ฑ ๊ธฐ๋ฐ RL ์ ์ ๊ณผ ์ ์ฌํ๊ฒ ์์ $t$์ ํ์ฌ ์ ์ฑ $\pi_{\theta}$๋ก๋ถํฐ action ๋๋ generation $a_{t}$๋ฅผ ์ํ๋งํด์ ํ๊ฒฝ $o_{t}$๋ก๋ถํฐ ๊ด์ฐฐ์ ์ป์ ์ ์๋ค. ๊ฒ๋ค๊ฐ, agent์ ์ถ๊ฐ์ context๋ฅผ ์ ๊ณตํด ์ฃผ๋ ๋ฉ๋ชจ๋ฆฌ ์์ mem ๋ํ ์ถ๊ฐํ์๋ค.
Evlauator. Evaluator๋ Actor์ ์ํด ์์ฑ๋๋ output์ ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ๋๋ฐ ์ค์ํ ์ญํ ์ ํ๋ค. ์์ฑ๋ ๊ถค๋๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ ์ฃผ์ด์ง task context ๋ด์์ ์ด๊ฒ์ ์ฑ๋ฅ์ ๋ํ๋ด๋ reward score๋ฅผ ๊ณ์ฐํ๋ค. ์ถ๋ก task์ ๋ํด์๋ Exact Matching(EM) grading์ ๊ธฐ๋ฐํด์ reward function์ ํ๊ตฌํ์๊ณ , ์์ฌ ๊ฒฐ์ task์์๋ ๊ตฌ์ฒด์ ํ๊ฐ ๊ธฐ์ค์ ์ ๋ง์ถฐ์ง ์ฌ์ ์ ์ ์๋ ํด๋ฆฌ์คํฑ ํจ์๋ฅผ ์ฌ์ฉํ์๋ค.
Self-reflection. Self-reflection ๋ชจ๋ธ์ ํฅํ ์๋๋ฅผ ์ํ ๊ท์คํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๊ธฐ ์ํ ์ธ์ด self-reflection์ ์์ฑํจ์ผ๋ก์จ Reflexion ํ๋ ์์ํฌ์์ ์ค์ํ ์ญํ ์ ํ๋ค. ๋๋ฌธ๋๋ฌธํ ๋ณด์ ์ ํธ๊ฐ ์ฃผ์ด์ง๋ฉด, self-reflection ๋ชจ๋ธ์ ๋ฏธ๋ฌํ๊ณ ๊ตฌ์ฒด์ ์ธ ํผ๋๋ฐฑ์ ์์ฑํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ํผ๋๋ฐฑ์ ๊ทธ๋ค์์ agent์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅ๋๋ค. ์๋, ์ค๋ฅ, self-reflection, ์ง์๋๋ ๋ฉ๋ชจ๋ฆฌ์ ๋ฐ๋ณต์ agent๊ฐ ์ ๋ณด์ ํผ๋๋ฐฑ ์ ํธ๋ฅผ ํ์ฉํจ์ผ๋ก์จ ๋ค์ํ ํ๊ฒฝ์์ ์์ฌ๊ฒฐ์ ๋ฅ๋ ฅ์ ๋น ๋ฅด๊ฒ ๊ฐ์ ์ํฌ ์ ์๊ฒ ํด ์ค๋ค.
Memory. Reflexion ํ๋ก์ธ์ค์ ํต์ฌ ๋ฌ์๋ short-term memory & long-term memory์ ๊ฐ๋ ์ด๋ค. ์ถ๋ก ์์ Actor๋ Actor์ ๊ฒฐ์ ์ short & long-term memory์ ๋ง์ถฐ๋๋ค. RL ์ ์ ์์ ๊ถค๋ ํ์คํ ๋ฆฌ๋ short-term memory๋ก ์ฌ๊ฒจ์ง๊ณ , ๋ฐ๋ฉด์ Self-Reflection ๋ชจ๋ธ์ output์ long-term memory์ ์ ์ฅ๋๋ค. ์ด ๋ ๋ฉ๋ชจ๋ฆฌ ์์๋ ๊ตฌ์ฒด์ ์ผ ๋ฟ๋ง ์๋๋ผ ์ฌ๋ฌ ์๋์์ ํ์ต๋ ๊ตํ์ ์ํด ์ํฅ์ ๋ฐ์ context๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด ํจ๊ป ์๋ํ๋ค.
Reflecion Process. Reflexion์ ์์ ๋งํ ์์๋ค์ ์ฌ์ฉํ๋ ๋ฐ๋ณต์ ์ธ ์ต์ ํ ํ๋ก์ธ์ค์ด๋ค.
3. Experiments
3-1. Sequential decision making: ALFWorld
ALFWorld๋ TextWorld์ ๊ธฐ๋ฐํด์ ๋ค์ํ ์ํธ์์ฉ์ ํ๊ฒฝ์์ multi-step task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด agent์ ๋์ ํ๊ฒ ํ๋ text-based ํ๊ฒฝ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์์ ํ ์๋ํ์ํค๊ธฐ ์ํด 2๊ฐ์ ์๊ฐ ํ๊ฐ ๊ธฐ์ ์ ๊ตฌํํ์๋ค: ์์ฐ์ด ๋ถ๋ฅ & ์์ ์ ์๋ ํด๋ฆฌ์คํฑ. ์ด ํด๋ฆฌ์คํฑ์ ๊ฐ๋จํ๋ฐ, agent๊ฐ ๋๊ฐ์ ํ๋์ ํ๊ณ ๋๊ฐ์ ์๋ต์ 3๋ฒ ์ด์์ ์ฌ์ดํด์์ ๋ฐ๊ฑฐ๋, ํ์ฌ ํ๊ฒฝ์์ ์ทจํด์ง๋ ํ๋์ ์๊ฐ 30์ ๋์ผ๋ฉด, self-reflect ํ๊ฒ ํด์ฃผ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ์ ์ผ๋ก ๋งค์ฐ ๊ธด prompt ์๋์ฐ๋ฅผ ํผํ๊ธฐ ์ํด agent์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ง์ง๋ง 3๊ฐ์ self-reflection์ผ๋ก ์๋๋ค. ๋ํ ๊ตฌ๋ฌธ ์ค๋ฅ๋ฅผ ํผํ๊ธฐ ์ํด agent์๊ฒ 2๊ฐ์ domain-specific few-shot ๊ถค๋๋ฅผ ์ ๊ณตํด ์ฃผ์๋ค.
Results. ReAct + Reflexion์ 134๊ฐ์ task ์ค 130๊ฐ์ task๋ฅผ ์์ํ์ ์ ๋๋ก ReAct๋ฅผ ์๋นํ ๋ฅ๊ฐํ์๋ค.
Analysis. Reflexion์ long & ์คํจํ ๊ถค๋๋ฅผ ํฅํ์ 'self-hint'๋ก ์ฌ์ฉ๋ ์ ์๋ ์ฐ๊ด ๊ฒฝํ์ผ๋ก distill ํ๊ธฐ ์ํด self-reflection์ ์ฌ์ฉํจ์ผ๋ก์จ ์ด์ ์ ์ ์ฝ๋ค์ ํด๊ฒฐํ์๋ค. ์ฌ๊ธฐ์๋ long-term memory๊ฐ ALFWorld์ agent๋ฅผ ๋์ด 2๊ฐ์ง ์ฃผ๋ ์ผ์ด์ค๊ฐ ์๋ค. agent๋ ์ด ๊ฒฝํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉํด์ ์ฌ๋ฌ ๋ฒ์ ์๋๋ฅผ ํตํด ์ฑ๋ฅ์ ๊ฐ์ ์์ผฐ๋ค.
- ๊ธด ๊ถค๋์์ ์ด๋ฅธ ์ค์๊ฐ ์ฝ๊ฒ ํ๋ณ๋ ์ ์์
- ์์ดํ ์ ํ์ธํ๊ธฐ ์ํ surfaces/containers๊ฐ ๋ง์ด ์์
3-2. Reasoning: HotPotQA
HotPotQA๋ 113K ๊ฐ์ question & answer ์์ผ๋ก ์ด๋ฃจ์ด์ง ์ํคํผ๋์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ agent์๊ฒ ์ฝํ ์ธ ๋ฅผ ๋ถ์ํ๊ณ ์ฌ๋ฌ ๋ฌธ์๋ฅผ ์ถ๋ก ํ๋๋ก ์ํจ๋ค. ์์ฐ์ด ์๋ต์ ํ๊ฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๊ฐ ์๊ณ ๋จ์ EM grading์ ์ฌ์ฉํด์ binary ์ฑ๊ณต ์ ํธ๋ฅผ agent์๊ฒ ์ฃผ์๋ค. ๊ฐ ์๋ ํ์๋ self-reflection ๋ฃจํ๋ binary ์ ํธ๋ฅผ ์ฆ๋ํ๊ธฐ ์ํด ์ฌ์ฉ๋์๋ค.
Results. Reflecion์ ์ฌ๋ฌ learning step์์ ๋ชจ๋ baseline์ ์๋นํ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ์๋ค. Reflexion run์์ agent๊ฐ ๊ฒฝํ์ ์์งํ๋๋ก ํ๋ฝํด ์ฃผ๊ณ , ํน์ task์์ 3๊ฐ์ ์๋ฐ๋ฅธ ์คํจํ ์๋๋ฅผ ์์ฑํ ๋, ์คํจํ task์์ ์ฌ์๋ํ๊ฒ ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ Reflexion์ agent๊ฐ ground-truth answer์ ์ ๊ทผํ์ง ์๊ณ ์ค์๋ฅผ ๋ฐ๋ก์ก์ ์ ์๋๋ก ๋์์ค์ ์ ํ๋๋ฅผ 14% ํฅ์์์ผฐ๋ค.
Analysis. Reflexion agent์ ๋ํด ํ์ค self-reflection์ final pass๋ก ๊ตฌํํ์๋ค. 1์ธ์นญ์ผ๋ก ์์ฑ๋ ์ธ์ด๋ฅผ ์ฌ์ฉํ ์ธ์ด ์ค๋ช ์ ์ฌ์ฉํ์ฌ agent๊ฐ ๋ ํจ๊ณผ์ ์ผ๋ก ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๋์ง๋ฅผ ํ ์คํธํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ self-reflection์ ํ์ต์ 8% ๋ ํฅ์์์ผฐ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ refinement-only ๋ฐฉ์์ self-reflection-guided refinement ๋ฐฉ์๋งํผ ํจ๊ณผ์ ์ด์ง ์๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
3-3. Programming
๋ ผ๋ฌธ์์๋ baseline๊ณผ Reflexion์ MBPP HumanEval, LeetcodeHardGym์ Python, Rust code์์ ํ๊ฐํ์๋ค.
Results. Reflexion์ ๋ชจ๋ baseline ์ ํ๋๋ฅผ ๋ฅ๊ฐํ๊ณ Python๊ณผ Rust์ ๋ํ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. ํ์ง๋ง, MBPP Python์์ Reflexion์ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Ablation Study. ๋ ผ๋ฌธ์์๋ test generation๊ณผ self-reflection์ ๋ํ Reflexion์ ํฉ์ฑ ๋ฐฉ์์ 50๊ฐ์ ๊ฐ์ฅ ์ด๋ ค์ด HumanEval Rust ๋ฌธ์ ์ ์๋ธ์ ์์ ํ๊ฐํ์๋ค.
- ๋ด๋ถ test generation & execution step ๋น ํธ๋ฆผ(test generation์ contribution test): ์ด๋ก์จ agent๊ฐ ํ์ฌ ๊ตฌํ์ผ๋ก๋ถํฐ ์ง๋ ์์ด self-reflect ํ๋ ๊ฒ์ ํ ์คํธํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ baseline์ ๋นํด 8% ์ ๋ ๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ์ด๋ agent๊ฐ unit test ์์ด๋ ํ์ฌ ๊ตฌํ์ด ์ฌ๋ฐ๋ฅธ์ง ํ์ธํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋์ agent๋ return์ ๋น ๋ฅด๊ฒ ๋ฐํํ๋ ์ต์ ์์ด ์คํ์ ๋ชจ๋ ๋ฐ๋ณต์ ์ฐธ๊ฐํด์ผ๋ง ํ๋ค.
- ์์ฐ์ด ์ค๋ช ์คํ ๋น ํธ๋ฆผ(self-reflection์ contribution test): ์์ฐ์ด ์ค๋ช ์คํ ์ ๋น ํธ๋ฆผ์ผ๋ก์จ self-reflection์ contribution์ ํ ์คํธ ํ์๋ค. ์ด๋ก์จ agent๊ฐ ๋ชจ๋ ์คํจํจ unit test์ ๊ฑธ์น ์ค๋ฅ ํ๋ณ & ๊ตฌํ ๊ฐ์ ์ task๋ฅผ ๋ฌถ๊ฒ ํ๋๋ฐ ์ด๋ ค์์ ์ค๋ค. test ์์ฑ๊ณผ ์ฝ๋ ๋ชจ์ ์คํ ์ ๊ตฌ๋ฌธ & ๋ ผ๋ฆฌ์ ์ค๋ฅ๋ฅผ ์บ์นํ ์ ์์ง๋ง, ๊ตฌํ ๊ณ ์ ์ ์ด๋ฌํ ์กฐ์ง์ ๋ํ๋ด์ง ๋ชปํ๋ค. ์ด๋ฐ ๊ฒฐ๊ณผ๋ self-reflection์ ์ฌ์ฉํ์ง ์๋ blind trial & error ๋๋ฒ๊น ๊ธฐ์ ์ ์ ์ํ๋ ์ต๊ทผ์ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ ์ด๋ ค์ด task์ ๋นํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์ฃผ์ฅํ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2303.11366