The overview of this paper
BERT์ RoBERTa๋ semantic textual simialrity$($STS$)$ ๊ฐ์ ๋ฌธ์ฅ ์ ํ๊ท task์ ๋ํด์ ์๋ก์ด SoTA performance๋ฅผ ๋ฌ์ฑํ์๋ค. ํ์ง๋ง ์ด๋ฌํ task๋ ๋ ๋ฌธ์ฅ์ด ๋คํธ์ํฌ์ ์ ๋ ฅ๋์ด์ผ ํ๋ฏ๋ก ์๋นํ computational overhead๋ฅผ ๋ฐ์์ํจ๋ค. BERT๋ฅผ ์ฌ์ฉํ์ฌ 10,000๊ฐ ๋ฌธ์ฅ์ ๋ชจ์์์ ๊ฐ์ฅ ๋น์ทํ ์ง์ ์ฐพ๋ ๊ฒ์ 5,000๋ง ๋ฒ์ ์ถ๋ก ๊ณ์ฐ์ด ํ์ํ๋ค. ์ด๋ฌํ BERT์ ๊ตฌ์กฐ๋ semantic similarity search ๋ฟ๋ง ์๋๋ผ clustering ๊ฐ์ unsupervised task์ ๋ํด์๋ ๋ถ์ ํฉํ๋ค.
๋ ผ๋ฌธ์์๋ simase & triplet network๋ฅผ ์ฌ์ฉํด์ cosine-similarity๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋น๊ตํ ์ ์๋ ์๋ฏธ์์ผ๋ก ์๋ฏธ ์๋ sentence embedding์ ์ป๋ pre-train BERT network์ ์์ ์ ๊ฐํ Sentence-BERT$($SBERT$)$๋ฅผ ์ ๋ณด์๋ค. ์ด SBERT๋ BERT์ RoBERTa๊ฐ ๊ฐ์ฅ ๋น์ทํ ๋ฌธ์ฅ์ ์ฐพ๋๋ฐ 65์๊ฐ์ด ๊ฑธ๋ฆฌ๋๋ฐ ๋นํด ๊ฒจ์ฐ 5์ด์ ์๊ฐ๋ง์ด ๊ฑธ๋ ธ๋ค!! ๊ทธ ์์ค์๋ BERT์ ์ฑ๋ฅ์ ์ ์งํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
๋ ผ๋ฌธ์์๋ SBERT์ SRoBERTa๋ฅผ ์ผ๋ฐ์ ์ธ STS task์ ์ ์ด ํ์ต task์ ๋ํด์ ํ๊ฐํ์๋๋ฐ, ๋ค๋ฅธ SoTA sentence embedding method๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Instroduction
2. Model
2-1. Training Details
3. Evaluation - Semantic Textual Similarity
4. Evaluation - SentEval
5. Computational Efficiency
1. Introduction
๋ ผ๋ฌธ์์๋ siamese & triplet network๋ฅผ BERT network์ ์ ์ฉํด์ ์๋ฏธ์์ผ๋ก ์๋ฏธ ์๋ sentence embedding์ ์ป์ด๋ผ ์ ์๋ Sentence-BERT๋ฅผ ์๊ฐํ์๋ค. ์ด SBERT๋ ์ง๊ธ๊น์ง๋ BERT๊ฐ ์ ์ฉ๋ ์ ์์๋ ๋ถ์ผ์ธ ํน์ ์ ์๋ก์ด task์ ๋ํด ์ฌ์ฉ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ค. ์ด๋ฌํ task์๋ ํฐ ๊ท๋ชจ์ ์๋ฏธ ์ ์ฌ๋ ๋น๊ต, clustering, semantic search๋ฅผ ํตํ ์ ๋ณด ๊ฒ์์ด ์๋ค.
BERT๋ ์ฌ๋ฌ ๋ฌธ์ฅ ๋ถ๋ฅ ๋ฐ ๋ฌธ์ฅ ์ ํ๊ท task์์ ์๋ก์ด SoTA performance๋ฅผ ๋ณด์ฌ์คฌ๋ค. BERT๋ cross-encoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค: ๋ ๊ฐ์ ๋ฌธ์ฅ์ด transformer network๋ก ๋ค์ด๊ฐ๊ณ target ๊ฐ์ด ์์ธก๋๋ค. ํ์ง๋ง, ์ด๋ฌํ ์ ์ ์ ๋๋ฌด๋ ๋ง์ ๊ฐ๋ฅํ ๊ณ์ฐ๋ ๋๋ฌธ์ ๋ค์ํ ์ ํ๊ท task์ ๋ํด์๋ ๋ถ์ ํฉํ๋ค.
clustering๊ณผ semantic search๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ ๊ฐ ๋ฌธ์ฅ์ ๋น์ทํ ๋ฌธ์ฅ๋ผ๋ฆฌ ๊ฐ์ ๋ฒกํฐ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ ๊ฒ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค. ๊ทธ๋์ ์ฐ๊ตฌ์๋ค์ ๊ฐ๊ฐ์ ๋ฌธ์ฅ์ BERT์ ์ ๋ ฅ์ผ๋ก ๋ฃ๊ธฐ ์์ํด์ ๊ณ ์ ๋ ํฌ๊ธฐ์ sentence embedding์ ์ป์ด๋ผ ์ ์์๋ค. ๊ฐ์ฅ ํํ๊ฒ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ BERT์ ์ถ๋ ฅ ๋ ์ด์ด๋ฅผ ํ๊ท ๋ด๊ฑฐ๋ ์ฒซ ๋ฒ์งธ ํ ํฐ$($CLS token$)$์ ์ถ๋ ฅ์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ์คํ์์๋ ๋ฐํ ๊ฑฐ์ง๋ง ์ด๋ฌํ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ๋ค์ sentence embedding๋ณด๋ค ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ GloVe embedding๋ณด๋ค๋ ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ์ ์ํํ๊ธฐ ์ํด SBERT๊ฐ ๊ฐ๋ฐ๋์๋ค. siamese network architecture๋ ์ ๋ ฅ ๋ฌธ์ฅ์ผ๋ก ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ ์ป์ด์ง ์ ์๋๋ก ํด์ฃผ์๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๋๋ Manhatten, Euclidean distance ๊ฐ์ ์ ์ฌ๋ ์ธก์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์๋ฏธ์์ผ๋ก ์ ์ฌํ ๋ฌธ์ฅ์ ์ฐพ์ ์ ์์๋ค. ์ด๋ฌํ ์ ์ฌ๋ ์ธก์ ์ ํ๋์ ํ๋์จ์ด์์ ๊ทน๋๋ก ํจ์จ์ ์ผ๋ก ์ํ๋ ์ ์๋ค. ์ด๋ SBERT๊ฐ semantic similarity search ๋ฟ๋ง ์๋๋ผ clustering์๋ ์ฌ์ฉ๋ ์ ์๋๋ก ํด์ฃผ์๋ค. 10,000๊ฐ์ ๋ฌธ์ฅ ๋ชจ์์์ ๊ฐ์ฅ ๋น์ทํ ๋ฌธ์ฅ ์์ ์ฐพ๋ task๋ BERT๋ฅผ ์ฌ์ฉํ์ ๋ 65์๊ฐ์ด ๊ฑธ๋ ธ์ง๋ง, SBERT๋ฅผ ์ฌ์ฉํ ๋๋ ๊ฒจ์ฐ 5์ด ์ ๋์ ์๊ฐ์ด ๊ฑธ๋ ธ๊ณ , ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ ๋ฐ๋ 0.01์ด ์ ๋์ ์๊ฐ์ด ๊ฑธ๋ ธ๋ค. ์ต์ ํ๋ ์ธ๋ฑ์ค ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ๊ฐ์ฅ ๋น์ทํ Quora ์ง๋ฌธ์ ์ฐพ๋ task๋ 50์๊ฐ์์ ๋ช ๋ฐ๋ฆฌ์ด๋ก ์ค์ด๋ค๊ฒ ๋์๋ค.
๋ ผ๋ฌธ์์๋ SBERT๋ฅผ NLI dataset์์ fine-tune ํ์๋๋ฐ, ์ด๊ฒ์ ๊ธฐ์กด์ SoTA setence embedding ์ด์๋ InferSent์ Universal Sentence Encoder๋ฅผ ์๋นํ ๋ฅ๊ฐํ๋ sentence embedding์ ์์ฑํ๋ค. SBERT๋ ํน์ task์ ๋ํด์ ์ ์ํ ์๋ ์๋ค. SBERT๋ ์ด๋ ค์ด ์์ ์ ์ฌ๋ ๋ฐ์ดํฐ์ ๊ณผ ์๋ก ๋ค๋ฅธ Wikipedia ๋ฌธ์์์ ๋์จ ๋ฌธ์ฅ์ ๊ตฌ๋ถํ๋ triplet ๋ฐ์ดํฐ์ ์์ ์๋ก์ด SoTA performance๋ฅผ ๋ฌ์ฑํ์๋ค.
2. Model
SBERT๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ sentence embedding์ ์ป๊ธฐ ์ํด BERT์ RoBERTa์ ์ถ๋ ฅ์ pooling ์ฐ์ฐ์ ๊ฐํ์๋ค. pooling ์ฐ์ฐ์ผ๋ก๋ ๋ค์์ 3๊ฐ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์คํ์ ์งํํ์๋ค.
- CLS-ํ ํฐ์ ์ถ๋ ฅ
- ๋ชจ๋ ์ถ๋ ฅ ๋ฒกํฐ์ ํ๊ท ๊ณ์ฐ$($MEAN-Strategy$)$
- ์ถ๋ ฅ ๋ฒกํฐ์ ์ต๋ ์๊ฐ ๊ณ์ฐ$($MAX-Strategy$)$
BERT์ RoBERTa๋ฅผ fine-tuneํ๊ธฐ ์ํด ์๋ฏธ์์ผ๋ก ์๋ฏธ ์๊ณ ์ฝ์ฌ์ธ ์ ์ฌ๋์ ๋น๊ต๋ ์ ์๋ ์์ฑ๋ sentence embedding ๊ฐ์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ์ํ simase & triplet network๋ฅผ ๋ง๋ค์๋ค. ๋คํธ์ํฌ ๊ตฌ์กฐ๋ training data์ ๋ฐ๋ผ์ ๋ณํ๋ค. ๋ค์์ ๊ตฌ์กฐ์ objective function์ ์ฌ์ฉํ์ฌ ์คํ์ด ์งํ๋์๋ค.
Classification Objective Function. sentence embedding $u$์ $v$, element-wise ์ฐจ์ด $|u-v|$๋ฅผ ํฉ์น๊ณ ํ์ต ๊ฐ๋ฅ ๊ฐ์ค์น $W_{t} \in \mathbb{R}^{3n \times k}$์ ๊ณฑํ์๋ค.
$o = softmax(W_{t}(u, v, |u-v|))$
์ฌ๊ธฐ์ $n$์ sentence embedding์ ์ฐจ์์ด๊ณ , $k$๋ ๋ผ๋ฒจ์ ์์ด๋ค. ์ด ๊ฒฝ์ฐ์๋ cross-entropy loss๋ฅผ ์ต์ ํํ์๋ค. ์ด ๊ตฌ์กฐ๋ ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ฌ์ฌ๋์ด ์๋ค.
Regression Objective Function. ๋ sentence embedding $u$์ $v$ ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ๊ณ์ฐ๋๋ค$($๊ทธ๋ฆผ 2.$)$. ํ๊ท ์ ๊ณฑ ์ค์ฐจ๊ฐ objective function์ผ๋ก ์ฌ์ฉ๋๋ค.
Triplet Objective Function. anchor ๋ฌธ์ฅ $a$, ๊ธ์ ๋ฌธ์ฅ $p$, ๋ถ์ ๋ฌธ์ฅ $n$์ด ์ฃผ์ด์ง๋ฉด triplet loss๋ ๋คํธ์ํฌ๊ฐ $a$์ $p$ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ $a$์ $n$์ ๊ฑฐ๋ฆฌ๋ณด๋ค ์๋๋ก ํ์ตํ๋ค. ์ํ์ ์ผ๋ก ๋ค์์ ์์ค ํจ์๋ฅผ ์ต์ํํ์๋ค.
$max(||s_{a} - s_{p}|| - ||s_{a} - s_{n}|| + \epsilon, 0)$
$s_{x}$ ๊ฐ๊ฐ์ sentence embedding $a/n/p$์ ๊ฑฐ๋ฆฌ ๊ณ์ฐ ๊ณต์ $||\cdot||$, ๊ทธ๋ฆฌ๊ณ ๋ง์ง $\epsilon$์ ์ฌ์ฉํ์๋ค. ๋ง์ง $\epsilon$์ $s_{p}$๊ฐ $s_{n}$ ๋ณด๋ค $s_{a}$์ ์ต์ํ $\epsilon$ ๋ ๊ฐ๊น๊ฒ ์๋ค๋ ๊ฒ์ ๋ณด์ฅํด์ค๋ค. Euclidean distance๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ฒ๋ผ $\epsilon = 1$๋ก ์ค์ ํ์๋ค.
2-1. Training Details
๋ ผ๋ฌธ์์๋ SBERT๋ฅผ SNLI์ Multi-Genre NLI ๋ฐ์ดํฐ์ ์ ์กฐํฉ์์ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ SBERT๋ฅผ ํ ์ํญ์์ 3๊ฐ์ง ๋ฐฉ๋ฒ์ softmax ๋ถ๋ฅ๋ฅผ ์ฌ์ฉํ์ฌ fine-tune ํ์๋ค. ๋ฐฐ์น ํฌ๊ธฐ๋ก๋ 16, Adam optimizer๋ก๋ ํ์ต๋ฅ 2e-5, ์ ํ ํ์ต๋ฅ warm-up์ ํ์ต ๋ฐ์ดํฐ์ 10%๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ๋ณธ pooling strategy๋ MEAN์ด์๋ค.
3. Evaluation - Semantic Textual Simialrity
๋ ผ๋ฌธ์์๋ SBERT์ ์ฑ๋ฅ์ STS task์ ๋ํด์ ํ๊ฐํ์๋ค. SoTA method๋ ์ข ์ข setence embedding์ similarity score์ ๋งคํํ๋ ํ๊ท ํจ์๋ฅผ ํ์ตํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ํ๊ท ํจ์๋ ์์ผ๋ก ์๋ํ๋ฉฐ ์กฐํฉ ํญ๋ฐ๋ก ์ธํด ๋ฌธ์ฅ ๋ชจ์์ด ํน์ ํฌ๊ธฐ์ ๋๋ฌํ๋ฉด ํ์ฅํ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๊ทธ ๋์ ์, ๋ sentence embedding ๊ฐ์ ์ ์ฌ๋์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํญ์ ๋น๊ตํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ negative Manhatten๊ณผ Euclidean distance์ ์ฌ์ฉํ์ฌ ์คํ์ ์งํํ์๋๋ฐ ๋ชจ๋ ๋ฐฉ๋ฒ์ ๊ฒฐ๊ณผ ๋น์ทํ๊ฒ ๋ํ๋ฌ๋ค.
3-1. Unsupervised STS
๋ ผ๋ฌธ์์๋ STS ํน์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ STS์ ๋ํ SBERT์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ํผ์ด์จ ์๊ด ๊ณ์ ๋ฉด์์๋ STS๊ฐ ์ ๋ง์ง ์์์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ ๋์ ์, sentence embedding๊ณผ gold label์ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ์ Spearman's rank ์๊ด๋๋ฅผ ๊ณ์ฐํ์๋ค. ์ด์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1์ ๋ํ๋ ์๋ค.
์ค๋ช ๋ siamese network ๊ตฌ์กฐ์ fine-tuning ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ ๊ฒ์ ์๊ด๋๋ฅผ ํฌ๊ฒ ํฅ์์์ผ์ฃผ๊ณ InferSent์ Universal Sentence Encoder๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. RoBERTa๋ ์ฌ๋ฌ๊ฐ์ง supervised task์ ๋ํด์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ง๋ง, sentence embedding์ ์์ฑํ๋ task์ ๋ํด์๋ SBERT์ SRoBERTa๊ฐ ์ฌ์ํ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์คฌ๋ค.
3-2. Supervised STS
STS ๋ฒค์น๋งํฌ๋ supervised STS ์์คํ ์ ํ๊ฐํ๋ ์ ๋ช ํ ๋ฐ์ดํฐ์ ์ด๋ค. BERT๋ ๋ ๊ฐ์ ๋ฌธ์ฅ์ ๋คํธ์ํฌ์ ํ๋ ค๋ณด๋ด๊ณ ์ถ๋ ฅ์ ๊ฐ๋จํ ํ๊ท method๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ์๋ก์ด SoTA performance๋ฅผ ๋ฌ์ฑํ์๋ค. ๋ ผ๋ฌธ์์๋ training set๋ฅผ ์ฌ์ฉํด์ SBERT๋ฅผ fine-tune ํ์๋๋ฐ, ์ด๋ regression objective function์ ์ฌ์ฉํ์๋ค. ์์ธก์ ํ ๋, sentence embedding ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์๋ค. ๋ชจ๋ ์์คํ ๋ค์ variance๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 10๊ฐ์ ๋๋คํ ์๋์์ ํ์ต๋์๋ค. ์ด์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 2์ ๋ํ๋ ์๋ค.
4. Evaluation - SentEval
SentEval์ sentence embedding์ ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ํดํท์ด๋ค. sentence embedding์ logistic regression ๋ถ๋ฅ๊ธฐ๋ฅผ ์ํ feature๋ก ์ฌ์ฉ๋๋ค. logistic regression ๋ถ๋ฅ๊ธฐ๋ 10-fold cross-validation ์ ์ ์์ ๋ค์ํ task์์ ํ์ต๋์๊ณ ์์ธก ์ ํ๋๋ test-fold์ ๋ํด์ ํ์ต๋์๋ค.
SBERT sentence embedding์ ๋ชฉ์ ์ ๋ค๋ฅธ task๋ฅผ ์ํด ์ ์ด ํ์ต์ผ๋ก ์ฌ์ฉ๋์ง ์๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด BERT ๋ ผ๋ฌธ์์ ์ฒ๋ผ ์๋ก์ด task์ ๋ํด BERT๋ฅผ fine-tuning ํ๋ ๊ฒ์ BERT ๋คํธ์ํฌ์ ๋ชจ๋ ๋ ์ด์ด๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋์ฑ ์ ํฉํ method์ด๋ค. ํ์ง๋ง SentEval์ ๋ค์ํ task์ ๋ํด sentence embedding์ ํ๋ฆฌํฐ์ ์ธ์์ ์ฃผ๊ณ ์๋ค.
๋ ผ๋ฌธ์์๋ SBERT sentence embedding์ 7๊ฐ์ง์ SentEval transfer task์ ๋ํด์ ๋น๊ตํ์๋ค. ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 3์ ๋ํ๋ ์๋ค.
ํ๊ท BERT embedding ๋๋ BERT network๋ก๋ถํฐ ๋์จ CLS-ํ ํฐ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋ค์ํ STS task์ ๋ํด์ ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๊ณ , ํ๊ท GloVe embedding๋ณด๋ค ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, SentEval์ ๋ํด์ ํ๊ท BERT embedding๊ณผ BERT CLS-ํ ํฐ ์ถ๋ ฅ์ ํ๊ท GloVe embedding์ ๋์ด์๋ ๊ด์ฐฎ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด์ ๋ํ ์ด์ ๋ ์๋ก ๋ค๋ฅธ ์ ์ ๋๋ถ์ด๋ค. STS task์ ๋ํด์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ์ฌ์ฉํ์ฌ sentence embedding ๊ฐ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๋ ค ํ๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ ๋ชจ๋ ์ฐจ์์ ๋๋ฑํ๊ฒ ๋ค๋ฃฌ๋ค. ๋ฐ๋๋ก, SentEval์ logistic regression ๋ถ๋ฅ๊ธฐ๋ฅผ sentence embedding์ ์ ์ฉํ์๋ค. ์ด๊ฒ์ ํน์ ์ฐจ์์ด ๋ถ๋ฅ ๊ฒฐ๊ณผ ํฌ๊ฑฐ๋ ์์ ์ํฅ์ ๊ฐ์ง ์ ์๋๋ก ํ์๋ค.
5. Computational Efficiency
sentence embedding์ ์ ์ฌ์ ์ผ๋ก ๋ช๋ฐฑ๋ง ๊ฐ์ ๋ฌธ์ฅ์ ๊ณ์ฐํด์ผํ ํ์๊ฐ ์๋ค. ๋ฐ๋ผ์ ๋น ๋ฅธ ๊ณ์ฐ ์๋๊ฐ ์๊ตฌ๋๋ค. ์ด ์น์ ์์๋ SBERT์ ํ๊ท GloVe embedding, InferSent, Universal Sentenve Encoder์ ๋น๊ตํ์๋ค. ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 4์ ๊ฐ๋ค.
CPU์์๋ InferSent๊ฐ SBERT๋ณด๋ค ๋ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ๋์ฑ ๊ฐ๋จํ ๋คํธ์ํฌ architecture ๋๋ฌธ์ด๋ค. InferSent๋ ํ๋์ Bi-LSTM ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๋ ๋ฐ๋ฉด์ BERT๋ 12๊ฐ์ ์์ฌ์๋ transformer ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๋ค. ํ์ง๋ง, transformer ๋คํธ์ํฌ์ ๊ณ์ฐ์ ์ฅ์ ์ GPU์์ ๋๋ฌ๋๋ค. ์ฌ๊ธฐ์ smart batching์ ์ฌ์ฉํ SBERT๋ ๊ฐ์ฅ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์คฌ๋ค.
์ถ์ฒ
https://arxiv.org/abs/1908.10084