์ด๋ฒ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ powerpoint๋ก ์์ฑํ์๋ค. ๋ ผ๋ฌธ์ ๊ฐ๋จํ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๊ณ , ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์ฒจ๋ถ๋ powerpoint ํ์ผ์ ํ์ธํ๊ธธ ๋ฐ๋๋ค. powerpoint์ ๋ฉ๋ชจ์ ์ฌ๋ผ์ด๋ ๋ ธํธ์ ์ค๋ช ์ ์ ์ด๋์ผ๋ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค. ์ด ํฌ์คํ ์ ๋ค์์ ์ ํ๋ธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค.
The overview of this paper
๋ ผ๋ฌธ์์๋ LM์ด ์ ์ฉ(helpful)ํ๊ณ ์ ํดํ์ง ์๊ฒ(harmless)ํ๊ฒ ์๋ํ๋๋ก preference modeling(PM)๊ณผ ์ฌ๋์ ํผ๋๋ฐฑ์ผ๋ก๋ถํฐ ๊ฐํํ์ต(RLHF)๋ฅผ ์ ์ฉํ์ฌ fine-tune ๋์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ alignment training์ด ๋๋ถ๋ถ์ NLP ํ๊ฐ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , python ์ฝ๋ฉ ๋๋ ์์ฝ๊ณผ ๊ฐ์ ํน์ ์คํฌ์ ๋ํด ํ์ต๋ ๋ชจ๋ธ๊ณผ ์๋ฆฝํ ์ ์์ ๋งํผ์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ๋ฐ๋ณต๋๋ ์จ๋ผ์ธ ํ์ต์ ์คํํ์๋๋ฐ ์ฌ๊ธฐ์ preference model๊ณผ RL policy๋ ์๋ก์ด fuman feedback ๋ฐ์ดํฐ์ ํจ๊ป ์ฃผ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ ๋์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๋ ผ๋ฌธ์ ๋ฐ์ดํฐ์ ๊ณผ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํฅ์์์ผฐ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2204.05862
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
We apply preference modeling and reinforcement learning from human feedback (RLHF) to finetune language models to act as helpful and harmless assistants. We find this alignment training improves performance on almost all NLP evaluations, and is fully compa
arxiv.org
https://www.youtube.com/watch?v=OntdAbOxXDg