Paper Reading ๐/Natural Language Processing
2023.02.01
์ด ํฌ์คํธ์ ์ ๋ชฉ์ ๋ณด๋ฉด์ '๋ฌด์จ ์๋ฆฌ๋ฅผ ํ๋ ๊ฑฐ์ง?' ๋ผ๋ ์๊ฐ์ด ๋ค ๊ฒ์ด๋ค. ํ์ง๋ง ์กฐ๊ธ ๋ ๊น๊ฒ ์๊ฐํด๋ณด์. ์ฐ๋ฆฌ ์ธ๊ฐ์ ์ด๋ค ๋ฌธ์ ๋ฅผ ์ ํ๊ฑฐ๋ ํด๊ฒฐํ ๋, ํ๋ ์ด์์ ๊ฐ๊ฐ์ ์ฌ์ฉํ๋ค. ์๋ฅผ ๋ค์ด์, ์ปต์ ์ง๋๋ค๋ ์ํฉ์ด ์๊ฒผ์ ๋, ๋จผ์ ์๊ฐ์ผ๋ก ์ปต์ ์๊น์์ ์ปต์ ์์น๋ฅผ ํ์ธํ๊ณ , ์ด๊ฐ์ ์ด์ฉํ์ฌ ์ปต์ ์๊น์๋ฅผ ํ์ธํ๊ณ ์ง๋๋ค. ์ด์ ๊ฐ์ด, ํ ๊ฐ์ง ํ๋์ ํํ ๋์๋, ํ๋ ์ด์์ ๊ฐ๊ฐ์ ์ฌ์ฉํ๋ค. ํ์ง๋ง, ํ์ฌ ๊ฐ๋ฐ๋๋ AI ๋ชจ๋ธ๋ค์ ๋ณด๋ฉด, ๋๋ถ๋ถ์ด ์ค์ง ํ๋์ task์๋ง ์ง์คํ ๋ชจ๋ธ๋ค๋ง์ด ๊ฐ๋ฐ๋๋ค. ์๋ฅผ ๋ค์ด์, text์ ํนํ๋ ๋ชจ๋ธ๊ณผ image์ ํนํ๋ ๋ชจ๋ธ์ด ์๋ค๊ณ ํด๋ณด์. ์ด ๋์ ๊ฐ๊ฐ์ task์์๋ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ด ๋์ ํ๊บผ๋ฒ์ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์ ํ์น ์๋ค. ์ด๋ฌํ..
Paper Reading ๐/Natural Language Processing
2023.02.01
๋จผ์ ํฌ์คํธ๋ฅผ ์์ํ๊ธฐ ์ ์, ์์ฆ์ ๋
ผ๋ฌธ๋ค์ ๋ญ๊ฐ ์ด๋ฆฌ๋ ๋ถ๋์ด ๋ง์ ๊ฑด์ง,, ์ด LaMDA์ ๋
ผ๋ฌธ๋ง ํด๋ 40ํ์ด์ง๋ฅผ ๋๊ธฐ๋ ๋ถ๋์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋์ ๋ณธ ํฌ์คํธ๋ ๊ตฌ๊ธ์์ ์ง์ LaMDA๋ฅผ ์๊ฐํ ๋ธ๋ก๊ทธ์ ๋ด์ฉ๋ ํจ๊ป ์ธ์ฉํ์ฌ ์์ฑ๋์๋ค๋ ์ ์ ๊ฐ์ํด์ฃผ์
จ์ผ๋ฉด ํฉ๋๋ค ใ
ใ
๊ทธ๋ฌ๋ฉด ๋ฐ๋ก ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํฌ์คํธ๋ก ๋ฐ์ด ๋ค์ด๊ฐ ๋ณผ๊น์~?? The overview of this paper Language Model, ์ฆ LM์ ๋ฐ์ ์ ๋ฐ์ ์ ๊ฑฐ๋ญํ์ฌ NLP ๋ถ์ผ์ ์ฌ์ฉ๋์ง ์๋ ๋ถ์ผ๊ฐ ์์ ์ ๋๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ์๋ํ๊ณ ์๋ค. ์๋ฅผ ๋ค์ด์, ์ธ์ด ๋ฒ์ญ, ๋ฌธ์ ์์ฝ๊ณผ ๊ฐ์ ๋ถ์ผ์๋ ์ฌ์ฉ๋๋ค. ์ด๋ค ์ค์์๋ ์คํ ์ฑ๋ด์ ์ด๋ ํ ์ฃผ์ ์ ๋ํด์๋ ๋ํ๋ฅผ ํ ์ ์๋ ๋ฅ๋ ฅ์ ์๊ตฌํ๋ค. ๊ทธ๋์ ๋์ ๋ถ์ผ์ ์ง์๊ณผ ์ ์ฌ์ ์์ฉ..
Paper Reading ๐/Natural Language Processing
2023.01.25
๋ณธ ํฌ์คํธ๋ฅผ ์ฝ๊ธฐ ์ ์ DistilBERT์ ์ฌ์ฉ๋ ๋ฉ์ธ ํ
ํฌ๋์ธ Knowledge Distillation์ ๋ํด์ ๋จผ์ ํ์ตํ์๊ธธ ๋ฐ๋๋๋ค. ๋ค์์ ํฌ์คํธ๋ฅผ ์ฐธ๊ณ ํ์์ค. The overview of this paper NLP์์ large-scale์ pre-trained model์ ํ์ฉํ์ฌ transfer learning์ ์ฒ๋ฆฌํ๋ ์ผ์ด ํํด์ง๋ฉด์, ์ด ๊ฑฐ๋ํ ๊ท๋ชจ์ ๋ชจ๋ธ์ ํ์ ๋ ์์์ผ๋ก ์ด๋ป๊ฒ ๊ตฌ๋ํ ์ง๋ ์์ง๋ ์ด๋ ค์ด ๋ฌธ์ ๋ก ๋จ์์๋ค. ๊ทธ๋์ ์ด ๋
ผ๋ฌธ์์๋ ์์ ๊ท๋ชจ์ general purpose language representation model์์๋ ๋ถ๊ตฌํ๊ณ , ๋ค์ํ ๋ถ์ผ์ task์ ๋ํด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ DistilBERT๋ฅผ ์ ์ํ์๋ค. ์ด DistilBERT๋ BERT์ ๋นํด 40..
Paper Reading ๐/Natural Language Processing
2023.01.18
์ด ๋
ผ๋ฌธ์์๋ PET์ ์ด์ฉํ๋ค. ์ด PET์ ๋ํด ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ํฌ์คํธ๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋๋ค. PET ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ: https://cartinoe5930.tistory.com/entry/PET-Exploiting-Cloze-Questions-for-Few-Shot-Text-Classification-and-Natural-Language-Inference-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 PET: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์ด์ ์ ๋ฆฌ๋ทฐํ๋ ๋
ผ๋ฌธ์ธ 'It's Not Just Size That Metters; Small Langua..
Paper Reading ๐/Natural Language Processing
2022.12.11
Pre-trained Language Modeling paper reading ์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช
ํ ๋
ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ ๋ฒ ํฌ์คํธ์ธ GPT-1์ ํ์ ๋ชจ๋ธ์ธ GPT-2์ ๋ํด์ ๋ฆฌ๋ทฐํ์๋ค. ELMo: 'Deep contextualized word representations' reading & review BERT: 'Pre-training of Deep Bidirectional Transformers for Language Understanding' reading & review GPT-1: 'Improving Language Understanding by Generative Pre-Trai..
Paper Reading ๐/Natural Language Processing
2022.12.09
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ๋ ๊ฐ์ RNN์ผ๋ก ๊ตฌ์ฑ๋ RNN Encoder-Decoder๋ก ๋ถ๋ฆฌ๋ ์๋ก์ด ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ ์ํ์๋ค. ํ๋์ RNN์ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ representation์ ์ฌ๋ณผ์ ์ํ์ค๋ฅผ ์ธ์ฝ๋ํ์๊ณ , ๋ค๋ฅธ ํ๋๋ ๋ ๋ค๋ฅธ ์ฌ๋ณผ์ ์ํ์ค์ representation์ ๋์ฝ๋ํ์๋ค. ์ ์๋ ๋ชจ๋ธ์ ์ธ์ฝ๋์ ๋์ฝ๋๋ source sequence๊ฐ ์ฃผ์ด์ก์ ๋, target sequence์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ต๋ํํ๊ธฐ ์ํด ๊ณต๋์ผ๋ก ํ์ต๋๋ค. ํต๊ณ์ ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ
์ ์ฑ๋ฅ์ ๊ธฐ์กด ๋ก๊ทธ ์ ํ ๋ชจ๋ธ์ ์ถ๊ฐ ๊ธฐ๋ฅ์ผ๋ก RNN Encoder-Decoder์์ ๊ณ์ฐ๋ phrase pair์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ์ฉํ์ฌ ๊ฐ์ ๋จ์ ๊ฒฝํ์ ์ผ๋ก ํ์ธํ ์ ์์๋ค. ์ ์ฑ์ ์ผ..
Paper Reading ๐/Natural Language Processing
2022.12.08
The overview of this paper BERT์์๋ token์ [MASK]๋ก ๋ฐ๊พธ๋ฉด์ ์
๋ ฅ์ ์์์ ์ฃผ๊ณ , ์ด๋ ๊ฒ ๋์ฒด๋ ํ ํฐ์ ๊ธฐ์กด์ ํ ํฐ์ผ๋ก ์ฌ๊ตฌ์กฐํ๋ Masked language modeling$($MLM$)$ pre-training ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ dowastream NLP task์ ์งํํ ๋, ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง, ํจ๊ณผ์ ์ผ๋ก ์งํํ๊ธฐ ์ํด์๋ ๊ฑฐ๋ํ ์์ ์ปดํจํ
์ด ์ํ๋์ด์ผ ํ๋ค. ์ด์ ๋ํ ๋์์ผ๋ก, ๋
ผ๋ฌธ์์๋ replaced token prediction์ด๋ผ๋ sample-efficient ํ pre-training task๋ฅผ ์ ์ํ์๋ค. ๊ทธ๋ค์์, ๋ชจ๋ธ์ด ์์๋ ํ ํฐ์ ๊ธฐ์กด ์ ์ฒด์ฑ์ ์์ธกํ๊ฒ ํ์ต์ํค๋ ๊ฒ ๋์ ์, ์์๋ ์
๋ ฅ์ ๊ฐ ํ ํฐ์ด generator..
Paper Reading ๐/Natural Language Processing
2022.12.07
The overview of this paper ์์ฐ์ด๋ฅผ pretrainingํ ๋ ์ฆ๊ฐ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ downstream task์ ๋ํด ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, GPU ๋๋ TPU ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ๊ฐ๋ก๋งํ training time์ ์ ํ์ด ์๊ธฐ๊ฒ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด ๋
ผ๋ฌธ์์๋ ๋ ๊ฐ์ parameter reduction ๊ธฐ์ ์ ์๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด์ BERT์์ ์ ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ผ๋ก ๋ ํฅ์๋ ์๋์ training์ ๋ณด์ฌ์คฌ๋ค. ์ข
ํฉ์ ์ธ ์คํ์ ์ฆ๊ฑฐ๋ค์ ์ ์๋ ๋ฐฉ๋ฒ์ด ๊ธฐ์กด์ BERT๋ณด๋ค ๋์ฑ ์ scaleํจ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ inter-sentence์ ์ผ๊ด์ฑ์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ง์คํ๋ self-supervised loss๋ฅผ ์ฌ์ฉํ๊ณ , ์ด๊ฒ์ด ๋ค์ค sentence ์
๋ ฅ๊ณผ ํจ๊ป ..
Paper Reading ๐/Natural Language Processing
2022.12.07
The overview of this paper ์ด ๋
ผ๋ฌธ์ BERT์ replication study๋ก ๋ค์ํ key parameter๋ค๊ณผ training data์ ํฌ๊ธฐ์ ์ค์์ฑ์ ๋ํด ์์๋ณด์๋ค. ๊ทธ ๊ณผ์ ์์ ์ฐ๊ตฌ์ง๋ค์ BERT๋ ์๋นํ undertrained ๋์๋ค๋ ์ฌ์ค์ ์์๋ด์๋ค. ๊ทธ๋ฆฌ๊ณ BERT ์ดํ์ ์ถ์๋ ๋ชจ๋ธ๋ค์ ๋ํด BERT๊ฐ ๊ทธ์ ์๋๋ ๋๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ค๋ ๊ฒ ๋ํ ์์๋๋ค. ์ค์ ๋ก๋ GLUE, RACE, SQuAD ๊ฐ์ ๋ฐ์ดํฐ์
์์ SoTA๋ฅผ ์ฐจ์งํ๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์กฐํ๋ ๊ฒ์ ์ด์ ์ ๊ฐ๊ณผ๋์๋ ๋์์ธ ์ ํ๊ณผ ์์ฆ์ ๋ฐํ๋๋ ๊ฐ์ ์๋ค์ ๊ทผ์์ ๋ํด ์๋ฌธ์ ์ ์ ๊ธฐํ์๋ค. Table of Contents 1. Introduction 2. Backgroun..
Paper Reading ๐/Natural Language Processing
2022.12.06
What improvements have been made in this paper? XLNet ๋
ผ๋ฌธ์ ์ด์ ์ ๋ชจ๋ธ์ธ Transformer-XL์ ์๊ฐํ ์ฐ๊ตฌ์ง๋ค์ด ํ์์ผ๋ก ์งํํด์ ๋ฐํํ ๋
ผ๋ฌธ์ผ๋ก, Transformer-XL์ ๊ฐ์ ์ํค๊ณ , BERT์ MLM์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ ๋ชจ๋ธ์ธ XLNet์ ์๊ฐํ์๋ค. ์ด XLNet์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค. ์ด XLNet์ ๋น์์ SOTA์๋ Transformer-XL์ ์์ด๋์ด๋ฅผ ํตํฉํ์ฌ ์ฌ์ ํ๋ จ์ ์งํํ์๋ค. XLNet์ factorization order์ ๋ชจ๋ ์์ด์ ๋ํด ์์ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํ์ฌ ์๋ฐฉํฅ์ผ๋ก ๋ฌธ๋งฅ์ ํ์ตํ ์ ์๊ฒ ํ์๋ค. auto regressive formulation ๋๋ถ์ BERT์ ์ ์ฝ์ ๊ทน๋ณตํ ์ ์์๋ค. ์์ ๊ฐ์ ..