Paper Reading ๐/Natural Language Processing
The overview of this paper BERT์ RoBERTa๋ semantic textual simialrity$($STS$)$ ๊ฐ์ ๋ฌธ์ฅ ์ ํ๊ท task์ ๋ํด์ ์๋ก์ด SoTA performance๋ฅผ ๋ฌ์ฑํ์๋ค. ํ์ง๋ง ์ด๋ฌํ task๋ ๋ ๋ฌธ์ฅ์ด ๋คํธ์ํฌ์ ์
๋ ฅ๋์ด์ผ ํ๋ฏ๋ก ์๋นํ computational overhead๋ฅผ ๋ฐ์์ํจ๋ค. BERT๋ฅผ ์ฌ์ฉํ์ฌ 10,000๊ฐ ๋ฌธ์ฅ์ ๋ชจ์์์ ๊ฐ์ฅ ๋น์ทํ ์ง์ ์ฐพ๋ ๊ฒ์ 5,000๋ง ๋ฒ์ ์ถ๋ก ๊ณ์ฐ์ด ํ์ํ๋ค. ์ด๋ฌํ BERT์ ๊ตฌ์กฐ๋ semantic similarity search ๋ฟ๋ง ์๋๋ผ clustering ๊ฐ์ unsupervised task์ ๋ํด์๋ ๋ถ์ ํฉํ๋ค. ๋
ผ๋ฌธ์์๋ simase & triplet network๋ฅผ ์ฌ์ฉํด์ c..
Paper Reading ๐/Natural Language Processing
ํ์ฌ ๋ฅ๋ฌ๋ ๋ถ์ผ์์๋ ๋ฐ์ดํฐ์ ๋ถ์กฑ์ ์๋ฌ๋ฆฌ๊ณ ์๋ค. ์๋ํ๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ ๋ ๋ง์ ๋ฐ์ดํฐ๊ฐ ํ์์ ์ธ๋ฐ ์ด๋ฅผ ์ํด ํ์ํ ๋ฐ์ดํฐ์ ์์ ํ์ ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ๋ช
๋ ๊ธฐ์ ์ด Data Augmentation์ด๋ค. Data Augmentation์ ๋ํด ๊ฐ๋ตํ๊ฒ ์ค๋ช
ํ๋ฉด ๊ธฐ์กด์ ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ์ฝ๊ฐ์ ๋ณํ ๋๋ ์์์ ๊ฐํด์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฃผ๋ก Computer VIsion ๋ถ์ผ์์ ์ฌ์ฉ๋๋๋ฐ NLP์๋ Data Augmentation ๊ธฐ๋ฒ์ด ์กด์ฌํ๋ค๋ ์ฌ์ค์ ์๊ฒ ๋๊ณ ํ ๋ฒ ๊ณต๋ถํด๋ณด๋ฉด์ ํฌ์คํธ๋ฅผ ์์ฑํ์๋ค. ์ด ํฌ์คํธ๋ ๋ค์์ ๋ธ๋ก๊ทธ๋ค์ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. https://neptune.ai/blog/data-augmentat..
Paper Reading ๐/Natural Language Processing
Introduction GPT-4๋ real-world์์๋ ์ฌ๋๋ณด๋ค ์กฐ๊ธ ๋ชปํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๊ทธ๋๋ ์ ๋ฌธ์ ๋ฐ ํ๋ฌธ์ ๋ฒค์น๋งํฌ์์ ์ฌ๋ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ large multimodel model$($์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๊ณ , ํ
์คํธ ์ถ๋ ฅ์ ๋ด๋์$)$ ์ด๋ค. ์๋ฅผ ๋ค์ด ๋ณํธ์ฌ ์๊ฒฉ์ฆ ์ํ$($simulated bar exam$)$์์ GPT-3.5์ ํ์ 10% ๊ธฐ๋ก๊ณผ ์๋ฐ๋๊ฒ ์์ 10%์ ์ฑ์ ์ ๊ธฐ๋กํ์๋ค. 6๊ฐ์ ๋์ ์ ๋์ ํ
์คํธ ํ๋ก๊ทธ๋จ๊ณผ ChatGPT์ ๊ตํ์ ์ฌ์ฉํ์ฌ GPT-4๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์กฐ์ ํ์ฌ ์ฌ์ค์ฑ$($factuality$)$, ์กฐ์ข
์ฑ$($steerability$)$ ๋ฐ ๊ฐ๋๋ ์ผ์ ๋ฒ์ด๋์ง ์๋ ์ธก๋ฉด์์$($์๋ฒฝํ์ง๋ ์์ง๋ง$)$ ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. ๋ถ๊ณผ 1๋
..
Paper Reading ๐/Natural Language Processing
The overview of this paper Transformer ๊ธฐ๋ฐ์ BERT ๊ฐ์ ๋ชจ๋ธ์ NLP ๋ถ์ผ์์ ๊ฐ์ฅ ์ฑ๊ณตํ ๋ชจ๋ธ ์ค ํ๋์ด๋ค. ํ์ง๋ง ๋ถํํ๊ฒ๋, Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๊ฐ์ฅ ํฐ ์ฝ์ ์ full attention ๋ฉ์ปค๋์ฆ ๋๋ฌธ์ sequence์ ๊ธธ์ด์ ๋ฐ๋ผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๊ณฑ์ ๋ก ๋์ด๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ quadratic์ linear๋ก ์ค์ธ sparse attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ Big Bird๋ฅผ ์ ์ํ์๋ค. ๋
ผ๋ฌธ์์๋ BigBird๊ฐ sequence ํจ์์ ๋ฒ์ฉ์ ์ธ ๊ทผ์ฌ์น๊ฐ ๋๊ณ Turing completeํ๋ค๊ณ ๋งํ๋ค. ๊ทธ๋ฆฌ๊ณ BigBird๋ full attention model์ quadratic ํน์ฑ์ ๋ณด์กดํ์๋ค. ๋
ผ๋ฌธ..
Paper Reading ๐/Natural Language Processing
The overview of this paper Transformer๋ ๋งค์ฐ ๊ฐ๋ ฅํ sequence model์ด์ง๋ง, sequence์ ๊ธธ์ด์ ๋ฐ๋ผ์ ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ๊ฐ ๊ณฑ์ ๋ก ํ์ํ๋ค๋ ๋จ์ ์ด ์๋ค. ์ด ๋
ผ๋ฌธ์์๋ attention ํ๋ ฌ์ sparse factorization์ ์๊ฐํ์๋๋ฐ, ์ด๋ Transformer์ ์๊ฐ ๋ณต์ก๋๋ฅผ $O(n \sqrt{n})$์ผ๋ก ์ค์๋ค. ๋ํ ๋
ผ๋ฌธ์์๋ ๋ค์์ ๋ด์ฉ๋ค์ ์๊ฐํ์๋ค. ๋์ฑ ๊น์ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๊ธฐ ์ํด ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ด๊ธฐํ์ ๋ณ๋์ ์ฃผ์์. attention ํ๋ ฌ์ ์ฌ๊ณ์ฐ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋. ํ์ต์ ์ํด fast attention์ ์ฌ์ฉํจ. ์ด๋ฌํ ๋ณํ๋ฅผ ์ค ๋ชจ๋ธ์ Sparse Transformer๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ๋ค. ์ด ๋ชจ๋ธ์ ์๋ฐฑ๊ฐ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํด..
Paper Reading ๐/Natural Language Processing
ChatGPT ์ดํ๋ก ์ธ์์ GPT-4์ ์ถ์๋ก ์ธํด ๋ ํ ๋ฒ ๋ค์ฉ์ด๊ณ ์๋ค. ํ์๋ GPT-4๊ฐ ์ฒ์ ๋์ค๊ณ OpenAI์ ์๊ฐ ์์์ ๋ณด๊ณ GPT-4์ ๋ฅ๋ ฅ์ ๋ํด ๊ฐํ ๊ถ๊ธ์ฆ์ ๊ฐ์ง๊ณ ์๋ ์ํ์ด๋ค. GPT-4๋ฅผ ๋ฆฌ๋ทฐํ๊ธฐ ์ ์ GPT-3์ ๋ํด์ ๋จผ์ ๋ฆฌ๋ทฐํด์ผ๊ฒ ๋ค๋ ์๊ฐ์ ์ด๋ ๊ฒ ๋ฆฌ๋ทฐ๋ฅผ ํด๋ณธ๋ค. GPT-3๋ฅผ ์๊ฐํ ๋
ผ๋ฌธ์ธ 'Language Models are Few-Shot Learners'๋ ์ด 75ํ์ด์ง์ ๋ฌํ๋ ๊ธด ๋
ผ๋ฌธ์ด๊ธฐ ๋๋ฌธ์ ๋ค ๋ฆฌ๋ทฐํ๋ ๊ฒ์๋ ๋ฌด๋ฆฌ๊ฐ ์์ด ํน์ ๋ถ๋ถ๋ง ๋ฆฌ๋ทฐํ์๋ค. The overview of this paper ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ํ๋ฉด ๋ง์ NLP task์ ๋ํด ์๋นํ ์์ค์ ๋ฒค์น๋งํฌ๋ฅผ ์ป๊ฒ ๋ ๋ฐ์๋ ๊ฑฐ๋ํ ์์ text corpus์ ๋ํด pre-trainingํ๊ณ ..
Paper Reading ๐/Natural Language Processing
The overview of this paper BERT์ ๊ฐ์ LM pre-training์ ์ฌ๋ฌ NLP task์ ๋ํด ์๋นํ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ํ์ง๋ง, PLM์ ๋ณดํต ๊ณ์ฐ์ ๋น์ฉ์ด ๋งค์ฐ ๋น์ธ๊ณ , ๊ทธ์ ๋ฐ๋ผ์ ์์์ด ์ ํ๋ ํ๊ฒฝ์์ ์คํํ๋๋ฐ ์ด๋ ค์์ด ์๋ค. ๋
ผ๋ฌธ์์๋ Transformer distillation method๋ฅผ ์ ์ํด์ ์ถ๋ก ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ๊ณ , ๋ชจ๋ธ ํฌ๊ธฐ๋ ์ค์ด๋ค๊ฒ ํ๊ณ , ๊ทธ ๋์ ์ ์ ํ๋๋ ์ ์ง์์ผฐ๋ค. ์ด Transformer distillation method๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ํด knowledge distillation$($KD$)$์ ์ ์ฉ์์ผฐ๋ค. ์ด๋ฅผ ์ํด ํ๋ถํ ์ง์์ ๊ฐ์ง๊ณ ์๋ ํฐ 'teacher' BERT์์ ์์ 'student' TinyBERT..
Paper Reading ๐/Natural Language Processing
The overview of this paper Transformer๋ NLP task์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ค. ํ์ง๋ง Transformer๋ฅผ ํ์ต์ํค๊ธฐ ์ํด, ๋๊ฒ ์ ์คํ๊ฒ ๋์์ธ๋ learning rate warm-up stage๋ฅผ ์ฌ์ฉํ๋ค. ์ด learning rate warm-up stage๋ ์ต์ข
์ฑ๋ฅ์ ๋ง์ ์ํฅ์ ๋ผ์น์ง๋ง, optimization์ ์๋๋ฅผ ์ ํ์ํค๊ณ ๋ ๋ง์ hyper-parameter tuning์ ํ์๋ก ํ๋ค. ์ด ๋
ผ๋ฌธ์์๋ learning rate warm-up stage๊ฐ ์ ํ์์ ์ธ์ง์ layer normalization$($LN$)$์ ์์น์ ๋ํ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋
ผ๋ฌธ์์๋ ์ด๊ธฐํ ์ residual block ์ฌ์ด์ layer normalization์..
Paper Reading ๐/Natural Language Processing
The overview of this paper ๊ธฐ์กด์ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ long sequence ์ฒ๋ฆฌ๊ฐ ๋ถ๊ฐ๋ฅํ์๋ค. ์๋ํ๋ฉด, ๊ณ์ฐ๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋ฌ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ์ ์ฝ์ ํด๊ฒฐํ๊ธฐ ์ํด, sequence length์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ค์ผ์ผ๋ง๋๋ attention mechanism์ ๊ฐ์ง๊ณ ์๋ Longformer์ ์๊ฐํ์๋ค. ์ด๋ ์์ฒ๊ฐ ๋๋ ๋ ๊ธด ํ ํฐ์ ๊ฐ์ง๋ ๋ฌธ์์ ๋ํด์๋ ์ฝ๊ฒ ์ฒ๋ฆฌํ ์ ์๊ฒ ๋ง๋ค์ด์ฃผ์๋ค. Longformer์ attention mechanism์ ๊ธฐ์กด์ self-attention์ ๋ํ drop-in ๋์ฒด์ด๊ณ , local windowed attention๊ณผ task motivated global attention์ ํฉ์ณค๋ค. ์ด์ ์ long..
Paper Reading ๐/Natural Language Processing
The overview of this paper ๋
ผ๋ฌธ์์๋ ํ
์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๋ pre-training method์ธ SpanBERT๋ฅผ ์๊ฐํ์๋ค. ๋
ผ๋ฌธ์์์ ๋ฐฉ์์ BERT๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํ์ฅํ์๋ค. 1. ๋๋ค ํ ํฐ์ ๋ง์คํนํ๊ธฐ ๋ณด๋ค๋ ์ธ์ ํ ๋๋ค ํ ํฐ์ ๋ง์คํน 2. Span Boundary Representations$($SBO$)$๋ฅผ ํ์ต์์ผ ๊ฐ๊ฐ์ token representation์ ์์กดํ์ง ์๊ณ masked token์ ์ ์ฒด ๋ด์ฉ์ ์์ธก. SpanBERT๋ BERT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , SpanBERT๋ QA์ coreference resolution ๊ฐ์ span selection ๋ฌธ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. Table of Contents 1. Introduction..