
How has scaling law developed in NLP? ๐ค - NLP์์ scaling law๋ ์ด๋ป๊ฒ ๋ฐ์ ๋์์๊น?
Before Starting.. 2017๋ NLP๋ฅผ ํฌํจํ ์ง๊ธ๊น์ง์ ๋ฅ๋ฌ๋์ ํ๋๋ฅผ ๋ค์ง์ด์๋ ํ์ ์ ์ธ ๋ชจ๋ธ์ธ 'Transformer'๊ฐ ์ ์๋์๋ค. ์ด๋ฒ ํฌ์คํ ์์ ๋ค๋ค๋ณผ ๋ด์ฉ์ Transformer์ ๋ํ ์์ธํ ๋ด์ฉ์ด ์๋๊ธฐ์ ๋ฐ๋ก ๊น์ด ์์๋ณด์ง๋ ์๊ฒ ์ง๋ง, ์ด๋ฒ ํฌ์คํ ์ ์ดํดํ๊ธฐ ์ํด์๋ ์ด ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ ๋ํด์๋ ์์๋ ํ์๊ฐ ์๋ค. Transformer์ ์ฌ์ด์ฆ๋ 465M ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ด์๋ค. ํ์ง๋ง, ๋ถ๊ณผ 3๋ ๋ง์ ์ด ์ฌ์ด์ฆ๊ฐ ์ ๋ง ์๊ฒ ๋๊ปด์ง๊ฒ ํ ๋งํผ ํฐ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ธ GPT-3(175B)๊ฐ ๋์ค๊ฒ ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ฌ๊น์ง๋ ์ด๋ณด๋ค ๋ ํฐ ๋ชจ๋ธ๋ค์ ๊ณ์ ๋์ค๊ณ ์๋ค. LM์ ์ฌ์ด์ฆ๊ฐ ์ด๋ ๊ฒ ์ ์ ์ปค์ง๊ฒ ๋ ์ด์ ๋ ๋ฌด์์ผ๊น? ๊ทธ ์ด์ ๋ Kaplan et al. 2020..