사람의 피드백을 통한 강화학습 - Reinforcement Learning from Human Feedback $($RLHF$)$

2023. 2. 14. 15:29

WebGPT: Browser-assisted question-answering with human feedback 논문 리뷰 (0)	2023.02.21
InstructGPT: Training language models to follow instructions with human feedback 논문 리뷰 (0)	2023.02.16
Large Language Models are Zero-Shot Reasoners 논문 리뷰 (0)	2023.02.13
LM이 사람과 유사한 생각 프로세스를 가지게 된다면? - Chain-of-Thought 논문 리뷰 (6)	2023.02.03
LaMDA의 뒤를 잇는 Pathways를 사용한 초거대 언어 모델! - PaLM 리뷰$($2$)$ (0)	2023.02.02

티스토리툴바