์์ฆ ๋ค์ด์ ๊ฐ์ฅ ๋จ๊ฑฐ์ด ๊ฐ์๋ผ๊ณ ๋ถ๋ฅผ๋งํ ๊ฒ์ ๋จ์ฐ์ฝ 'ChatGPT'๋ผ๊ณ ์๊ฐํ๋ค. ์ ๋ง์ด์ง, ChatGPT์ ์ถํ์ ์จ ์ฌํ๋ฅผ ๋ค์ง์ด๋์ ๋งํผ ํฐ ํ์ฅ์ ๋ถ๋ฌ์ผ์ผ์ผฐ๋ค. ์ด์ ๊น์ง ์์ฌ์ ๋ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ ๋ฏผ๊ฐ์ธ์๊ฒ ์ฒ์์ผ๋ก ๊ณต๊ฐ๋ LM์ผ๋ก์จ ์ฌํ์ ์ด๋ชฉ์ ๋์ด๋น๊ธฐ๊ธฐ์๋ ์ถฉ๋ถํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฑ๋ฅ์ ๋๋ผ์ธ ์ ๋์์ผ๋ ๋ง์ด๋ค. ๐ฅ ํ์๋ ์ฌ๋ฌ ๋ฒ ์ง๋ฌธ๋ ๋์ ธ๋ณด๊ณ ์์์ฝ์ฝํ ์ด์ผ๊ธฐ๋ ํด๋ณด์๋๋ฐ, ์ ๋ง์ด์ง ๋๋จํ๋ค๋ ์๊ฐ์ด ๋ง์ด ๋ค์๋ค.
ํ์ง๋ง, ์ธ์ ๋ ๊ทธ๋ ๋ฏ ์์ฒญ๋ ๊ธฐ์ ์ ๋ฐ์ ๊ณผ ์ถํ์ ์ด๋์ด ๋ฉด๋ ํจ๊ป ์ค๊ฒ ๋๋ค. ๋์จ์ง ์ผ๋ง ๋์ง ์์์ง๋ง, ๋ฒ์จ ์ด ChatGPT๋ฅผ ์ ์ฉํ๋ ์ฌ๋ก๋ค์ด ์์๋ค์ด ๋๋ฌ๋๊ณ ์๋ค. ์๋ฅผ ๋ค์ด, ๋ํ๊ต ๊ณผ์ ๋ฅผ ์ ์ถํ ๋, ChatGPT์ ํ์ ๋น๋ ค ๋์ ๊ณผ์ ๋ฌผ์ ์์ฑํ๊ฒ ํ๋ค๋ ๊ฐ ์๋๋ฉด ์๋ชป๋ ๋ด์ฉ์ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์์ฑํด ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ๋ฌํ๋ค๋ ๊ฐ์ ๊ฐ์ ๋ฌธ์ ๋ ๋ฐ์ํ๊ณ ์๋ค. ๐ค
๊ทธ๋์ ์ด๋ฒ์ ๋ฆฌ๋ทฐํด๋ณผ ๋ ผ๋ฌธ์ LM์ด ์์ฑํ ๊ธ๊ณผ ์ฌ๋์ด ์์ฑํ ๊ธ์ ๊ตฌ๋ถํด์ฃผ๋ DetectGPT์ด๋ค! ๐ ๊ทธ๋ฌ๋ฉด ์ด์ ๋ถํฐ DetectGPT์ ์ธ์์ผ๋ก ๋น ์ ธ๋ณด๋๋ก ํ์!
The overview of this paper
large language model$($LLM$)$์ ๋ ์ด ๊ฐ์๋ก ๋์ฑ ์ ์ฐฝํ๊ณ ๋์ฑ ์ฌ์ค์ ์ ๋ณด๋ฅผ ๋ด๊ฒ ๋ฐ์ ๋์๋ค. ํ์ง๋ง, ์ด๋ฐ LLM์ ๋ฐ์ ์ ์คํ๋ ค ๋ ํฌํธ ๋ํ๊ณผ ๊ฐ์ ๋ถ์ผ์ ์ ์ฉ๋ ์ ์์์ ๋ณด์ด๋ฉด์, ์ด์ ๋ํ ๊ฒฝ๊ฐ์ฌ์ ์ผ์ผํค๊ฒ ํ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ LLM์ ์ํด ์์ฑ๋ ๊ธ์ด model์ log probability ํจ์์์ negative ๊ณก์ ์์ญ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ฒ์์ผ๋ก ์ค๋ช ํ์๋ค. ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด curvature ๊ธฐ๋ฐ์ ๊ธฐ์ค์ผ๋ก ๊ธ์ด LLM์ ์ํด ์์ฑ๋ ๋ฌธ์ฅ์ธ์ง ํ์ ํ๋ DetectGPT๋ฅผ ์๊ฐํ์๋ค. ์ด DetectGPT๋ ์ค์ง log probability๋ง์ ์ฌ์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ํ ์ ์์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ํ์กดํ๋ model sample detection์ ์ํ zero-shot method๋ค๋ณด๋ค ๋์ฑ ๋ฐ์ด๋ ๋ถ๋ณ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค! ๐ฅ
Table of Contents
1. Introduction
2. Zero-Shot Machine-Generated Text Detection Problem
3. DetectGPT: Zero-shot Machine-Generated Text Detection with Random Perturbations
4. Experiments
4-1. Main Results
4-2. Variants of Machine-Generated Text Detection
4-3. Evaluating scaling properties of DetectGPT
5. Discussion
1. Introduction
LLM์ ๋ฐ์ ์ ๋ฐ์ ์ ๊ฑฐ๋ญํด ๋๋ถ๋ถ์ ์ฌ๋์ ์ ๋ฌด๋ ํ ์ ์์ ๋งํผ์ ์ฑ๋ฅ์ ์ด๋์ด๋๋ค. ์๋ฅผ ๋ค์ด, ์์ฆ์ ํซํ GPT-3, PaLM, ChatGPT ๋ฑ์ ๋งค์ฐ ์ฌ๋์๋ ์ง๋ฌธ์๋ ์ง์์ ์ฐํ๊ฒ ๋๋ตํ๋ ๋ฑ์ ๋๋ผ์ด ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๐ฒ ํ์ง๋ง, ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ํ๋ฉด LLM์ด ์ ๊ณตํ๋ ์ค๋๋ ฅ์๋ ๋ง๋ค์ด ์ฌ์ค์ ์ข ์ข ์๋ชป๋ ๋๋ต์ด๋ผ๋ ๊ฒ์ ๋ฐํ๋ด์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ํ์๋ค์ ์ด LLM์ ์ฌ์ฉํ์ฌ ๊ณผ์ ๋ฅผ ๋ํํ๊ฑฐ๋, AI๊ฐ ์์ฑํ ๋ด์ค๋ค์ด ์์์ ธ ๋์ค๊ณ ์๋ ํ์ฌ์ด๋ค. ์ด๋ ํ์๋ค์ ์ ๋๋ก ๋ ํ๊ฐ๋ฅผ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๊ณ , ์ฌ๋๋ค์๊ฒ ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์๋ ๋ฑ์ ๋ง์ ๋ฌธ์ ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ด ๋๋๋๋ฉด์ model์ด ์์ฑํ ๊ธ์ ์๋์ ์ผ๋ก ๊ฐ์งํด๋ผ ์ ์๋ ๊ธฐ์ ์ ํ์์ฑ ๋ํ ๋๋๋๊ณ ์๋ค.
์ง๊ธ๊น์ง๋ ์ด๋ฅผ ์ํด ๋ ๋ค๋ฅธ deep network model์ ํ์ต์์ผ์ ๊ฐ์งํด๋ด๋ ค๊ณ ํ์๋ค. ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ๋ค์์ ๋ ๊ฐ์ง ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค.
- topic์ ๋ํด์ ๊ณผ์ ํฉ์ด ๋ ์ํ์ฑ์ด ์์
- ๋งค ์๋ ๋๋ง๋ค ์๋ก์ด model์ ํ์ต์์ผ์ผ ํ๋ ๋ฌธ์ ์ ์ด ์์
๊ทธ๋์ ์ด๋ฅผ ์ํด machine-generated detection์ zero-shot ๋ฒ์ ์ ๊ณ ์ํ์๋ค. ๊ทธ ๋ฐฉ๋ฒ์ ๊ฐ ํ ํฐ๋น ํ๊ท log probability๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด๋ค. ํ์ง๋ง, ๊ทธ๋ ๊ฒ ํ ๊ฒฝ์ฐ์๋ ์ ์ฉํ ์ ๋ณด๋ฅผ ํฌํจํ๋ local structure์ ๋ฌด์ํ๊ฒ ๋๋ฒ๋ฆฐ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋ค์์ ๊ฐ๋จํ ๊ฐ์ค์ ์ ์ํ์๋ค. model-generated text์ ์ฌ์ํ ์ฌ์์ฑ์ ๊ธฐ์กด์ ์ํ๋ณด๋ค ๋ฎ์ log probability๋ฅผ ๊ฐ์ง๋ ๋ฐ๋ฉด์, human-written text์ ์ฌ์ํ ์ฌ์์ฑ์ ๊ธฐ์กด์ ์ํ๋ณด๋ค ๋๊ฑฐ๋ ๋ฎ์ log probability๋ฅผ ๋ณด์ฌ์คฌ๋ค. ํ ๋ง๋๋ก, model-generated text๋ log probability function์์ negative curvature์ ๊ฐ์ง๋ค๋ ์๋ฏธ์ด๋ค.
์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด, ๋ค์๊ณผ ๊ฐ์ด DetectGPT๋ฅผ ํ ์คํธํ์๋ค. source model $p_{\theta}$์์๋ถํฐ ๋์จ ๊ธ์ธ์ง ํ์ธํ๊ธฐ ์ํด, DetectGPT๋ $p_{\theta}$ ํ์์ ํ๋ณด ๊ตฌ์ ์ log probability๋ฅผ $p_{\theta}$ ํ์์ ๊ตฌ์ ์ ์ฌ๋ฌ perturbations์ ํ๊ท log probability์ ๋น๊ตํ๋ค. ๋ง์ฝ perturbed ๊ตฌ์ ์ด ๊ธฐ์กด์ ๊ฒ๋ณด๋ค ํ๊ท log probability๊ฐ ์ด๋ ์ ๋ ๋ง์ง์ผ๋ก ๋ฎ์ ๊ฐ์ ๊ฐ์ง๋ฉด, ํ๋ณด์ ๊ตฌ์ ์ ์๋ง๋ $p_{\theta}$๋ก๋ถํฐ ๋์จ ๊ฒ์ผ ๊ฒ์ด๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ด ์ด DetectGPT์ ์ ๋ฐ์ ์ธ ๊ฐ์์ด๋ค.
๊ทธ๋ฆฌ๊ณ ๋ค์์ ๊ทธ๋ฆผ 2๋ ๊ฐ์ค์ ๋ํ ์ค๋ช ์ด๋ค.
Contribution
์ด ๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- model-generated text๋ human-generated text์ ๋นํด ๋์ฑ negativeํ log probability๋ฅผ ๋ณด์ฌ์คฌ์
- ์ด ๊ฐ์ค์ ๊ธฐ๋ฐํ DetectGPT ๊ฐ๋ฐ
2. The Zero-Shot Machine-Generated Text Detection Problem
zero-shot mahcine-generated text detection์ text ์กฐ๊ฐ์ด๋ ํ๋ณด์ ๊ตฌ์ $x$๊ฐ source model $p_{\theta}$์ ์ํด ์์ฑ๋ ๋ฌธ์ฅ์ธ์ง ํ์ ํ๋ ๋ฌธ์ ์ด๋ค. zero-shot ๋ฌธ์ ์ ํน์ฑ์ ๋ชจ๋ธ์ generated text๋ human-written text์ ๋ํด ์ ๊ทผํ ์ ์๊ฒ ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ whitebox setting์ ์ฌ์ฉํ์๋๋ฐ, whitebox setting์ ๋ชจ๋ธ์ ๊ตฌ์กฐ ๋๋ ํ๋ผ๋ฏธํฐ์ ์ ๊ทผํ ์ ์๊ฒ ํ๋ ๋ฐฉ์์ด๋ค.
๋ ผ๋ฌธ์์ ์ ์ํ๋ detection criterion์ธ DetectGPT๋ ํ๋ณด ๊ตฌ์ ์ ๊ฐ๊น์ด ๊ตฌ์ ์ ์์ฑํ๊ธฐ ์ํด ์ผ๋ฐ์ ์ธ ์ฌ์ ํ๋ จ๋ mask filling model์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ mask filling model์ ๋์ ๋๋ฉ์ธ์ ๋ํ fine-tuning์ด๋ ์ ์ ์์ด off0the-shelf๋ก ์ฌ์ฉํ์๋ค.
3. DetectGPT: Zero-shot Machine-Generated Text Detection with Random Perturbations
DetectGPT๋ ๊ธฐ๋ณธ์ ์ผ๋ก source model $p_{\theta}$์ ์ํ์ human text์ ๋ฌ๋ฆฌ, ๋ณดํต $p_{\theta}$์ log probability ํจ์์ negative curvature์ ์๋ค๋ ๊ฐ์ค์ ๊ธฐ๋ฐํ์๋ค. ํ ๋ง๋๋ก, $\tilde{x}$์ ์์ฐํ๋ ๊ตฌ์ $x ~ p_{\theta}$์ ์ฌ์ํ ๋ณ๋์ ๊ฐํ๊ฒ ๋๋ฉด, $log_{p_{\theta}}(x) - log_{p_{\theta}}(\tilde{x})$๋ human-written๋ณด๋ค model-generated์ ๋นํด ๋์ฑ ํด ๊ฒ์ด๋ค. ์ด ๊ฐ์ค์ ์ ์ฆํ๊ธฐ ์ํด, ์ด์ง ๋ณ๊ฒฝ๋๊ธด ํ์ง๋ง, $x$์ ์๋ฏธ๋ ์ ์ฌํ $\tilde{x}$์ ๋ํ ๋ถํฌ๋ฅผ ์ ๊ณตํ๋ perturbation ํจ์์ธ $q(\cdot | x)$์ ์๊ฐํด๋๋ค. ํ ๋ง๋๋ก, perturbation function์ $x$์ ๋ฌธ์ฅ ์ค ํ๋๋ฅผ paraphraseํ๋ ๋๋์ด๋ค. ์ด perturbation function์ ์ฌ์ฉํด์ perturbation discrepancy $\textbf{d}(x, p_{\theta}, q)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
๋ ผ๋ฌธ์์ ์ธ์ด ๊ฐ์ค์ ์ข ๋ ์์ธํ ์ ๋ฆฝํ์ฌ ๋ค์์ ๊ฐ์ค์ ์ธ์ ๋ค.
Hypothesis 4.1 ๋ง์ฝ $q$๊ฐ data manifold์์ ์ํ์ ์์ฑํ๋ค๋ฉด, $\textbf{d}(x, p_{\theta}, q)$๋ ์ํ $x ~ p_{\theta}$์ ๋ํด ๋์ ํ๋ฅ ๋ก positive์ด๋ค. ํ์ง๋ง, human-written text์ ๋ํด์ $\textbf{d}(x, p_{\theta}, q)$๋ ๋ชจ๋ $x$์ ๋ํด 0๊ฐ์ ๊ฐ์ง๋ ๊ฒฝํฅ์ด ์๋ค.
์ด๋ฅผ ์ด์ฉํ๋ฉด text๊ฐ ๋ชจ๋ธ $p_{\theta}$์ ์ํด ์์ฑ๋ text์ธ์ง perturbation discrepancy์ ๊ธฐ์ค์ ์ ๋์ด ๊ฐ๋จํ๊ฒ ๊ตฌ๋ถํ ์ ์๋ค. ์ค์ ๋ก perturbation discrepancy๊ฐ ๋ณ๋ณ๋ ฅ์ด ์๋์ง ์คํ์ ํตํด ์ด๋ฅผ ์ฆ๋ช ํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 3์ ๋ณด๋ฉด ํ์คํ human-written text๋ model-generated text์ ๋นํด log probability์ ๋ํ average drop์ด ๋ฎ์ ๊ฑธ ์ ์ ์๋ค.
์ด๋ ๊ฒ ํด์ ๋ค์์ ์๊ณ ๋ฆฌ์ฆ 1์ DetectGPT๊ฐ ์์ฝ๋์ด ์๋ค.
4. Experiments
DetectGPT์ ์ฑ๋ฅ์ด ์ผ๋ง๋ ์ข์์ง ํ์ธํ๊ธฐ ์ํด ์ฌ๋ฌ ์กฐ๊ฑด์ ์ ์ฉํ์ฌ ์คํ์ ์งํํ์๋ค.
Comparisons DetectGPT๋ฅผ ํ์กดํ๋ ๋ค๋ฅธ machine-generated text๋ฅผ ๊ฐ์งํ๊ธฐ ์ํ zero-shot method๋ค๊ณผ ๋น๊ตํ์๋ค. ์ด method๋ค์๋ token log probability, token rank ๋๋ entropy์ ๋ํ ํต๊ณ์ ํ ์คํธ๋ค์ด ์๋ค. ๊ฐ๊ฐ์ ๋ค์๊ณผ ๊ฐ๋ค.
- token log probability: ํ๋ณด์ ๊ตฌ์ ์ด machine์ ์ํด ์์ฑ๋์๋์ง ํ์ธ. log probability๊ฐ ๋์์๋ก model์ํด ์์ฑ๋์๋ค๋ ์๋ฏธ.
- token rank & log rank: ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ฐ๋ฅธ rank์ ํ๊ท ์ฌ์ฉ. ๋ฎ์ average rank๋ machine-generated text๋ผ๋ ์๋ฏธ.
- entropy ๊ธฐ๋ฐ: model-generated text๋ in-distribution์ ์. ๋์ average entropy๋ model-generated text๋ผ๋ ์๋ฏธ.
Hyperparameters DetectGPT์ ์ฃผ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ perturbation์ ์ํ word mask, masked span์ ๊ธธ์ด, mask filling์ ์ฌ์ฉํ model ์ ์ , mask filling model์ ์ํ sampling ํ์ดํผํ๋ผ๋ฏธํฐ ์ด๋ค.
4-1. Main Results
Zero-Shot Machine-Generated Text Detection DetectGPT์ ๋ค๋ฅธ zero-shot method๋ค ๊ฐ์ ๋น๊ต ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1์ ๋ํ๋ ์๋ค. ํ 1์ ๋ณด๋ฉด DetectGPT๊ฐ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ ๋ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ก์จ log-rank ๊ธฐ์ค์ ์ด log probability ๊ธฐ์ค์ ๋ณด๋ค ๋์ฑ ๊ฐ๋ ฅํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
Comparison with Supervised Detectors Supervised Detector์ DetectGPT์ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. supervised learning์ ์๋ก์ด domain์ด๋ ์ธ์ด์ ๋ํด์ ์ ์ ์ํ์ง ๋ชปํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์ง๋ง, zero-shot method๋ ์๋ก์ด ์ธ์ด์ domain์ ๋ํด ์์ฝ๊ฒ ์ผ๋ฐํ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์๋ฅผ ๋ค์ด, DetectGPT๋ ์์ด์์ ๋ ์ผ์ด๋ก ์ธ์ด๊ฐ ๋ฐ๋์์์๋ ๋ณ๋ก ์ํฅ์ ๋ฐ์ง ์๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ค์์ ํ 2๋ DetectGPT๊ฐ supervised detector์๋ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4-2. Vatiants of Machine-Generated Text Detection
Detecting Revised Machine-Generated Text ์ฌ๋๋ค์ ์๊ธฐ์ task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด model์ด ์์ฑํ ๊ธ์ ๋งน๋ชฉ์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ๋ ํ์ง๋ง, ๋๋ก๋ ๋ชจ๋ธ์ด ์์ฑํด๋ธ ๊ธ์ ์ง์ ์์ ํ๊ฑฐ๋ ๋ฐ๊พธ๊ธฐ๋ ํ๋ค. ๋ฐ๋ผ์ ์ด๋ ๊ฒ ์์ ๋ ๊ธ์ ๋ํด์๋ Detector๊ฐ ์ด๋ค ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง ์คํ์ ํตํด ํ์ธํ์๋ค. entropy baseline์ ์ด๋ฌํ ์ธํ ์์ ๊ฐ๋ ฅํ ๋ชจ์ต์ผ๋ก ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๊ณ , DetectGPT๋ ๋ชจ๋ ๋ถ๋ฌธ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ค์์ ๊ทธ๋ฆผ 4๊ฐ ๊ทธ ๊ฒฐ๊ณผ์ด๋ค.
Impact of Alternative Decoding Strategies on Detection ์ด๋ฏธ ํ 1์์ DetectGPT๋ machine-generated text๋ฅผ ๋ถ๋ฅํ๋๋ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง ์ด์ ์ฐ๊ตฌ๋ค์ ์ํ๋ฉด decoding ์ ๋ต์ด detection์ ์ด๋ ค์ ์ ๋์ ์ํฅ์ ์ค๋ค๊ณ ๋ฐํ๋ค. ์ด๋ฅผ ๋ถ์ํ๊ธฐ ์ํด top-k modeling๊ณผ nucleus sampling์ ์ฌ์ฉํ์๋ค. top-k sampling์ ์ํ๋ง ๋ถํฌ์์ ๊ฐ์ฅ ๋์ ํ๋ฅ ๊ฐ์ ๊ฐ์ง๋ k๊ฐ์ ํ ํฐ์ผ๋ก ์ค์ด๊ณ , nucleus sampling์ ๊ฒฐํฉ ํ๋ฅ ์ด p๋ฅผ ์ด๊ณผํ๋ ๊ฐ์ฅ ์์ ํ ํฐ ์ธํธ์์๋ง ์ํ๋งํ๋ค. ์ด๋ฌํ top-k sampling๊ณผ nucleus sampling์ detection์ ๋์ฑ ์ฝ๊ฒ ๋ง๋ค์ด์ฃผ์๋ค.
Using Likelihoods from Models other than the Source ์ด ์น์ ์์๋ ๊ณผ์ฐ ๋ชจ๋ธ A๊ฐ ์์ฑํด๋ธ ๊ธ์ ๋ํด์ ๋ชจ๋ธ B๊ฐ candidate passage๋ฅผ ์ ๋ถ๋ฅํ ์ ์์์ง ์์๋ณด์๋ค. ๋ค์์ ๊ทธ๋ฆผ 5๋ ์์ฑ ๋ชจ๋ธ๊ณผ ๋ถ๋ฅ ๋ชจ๋ธ์ด ๋ค๋ฅผ ๋, detection performance๊ฐ ๊ฐ์๋๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์ด๋ฅผ ํตํด DetectGPT๋ whitebox-setting์ด ์๋ง๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
4-3. Evaluating scaling properties of DetectGPT
Impact of Source and Mask-FIlling Model Scale ์ฌ๊ธฐ์์๋ source model๊ณผ mask-filling model์ ํฌ๊ธฐ๊ฐ DetectGPT์ ์ฑ๋ฅ์ ์ด๋ ํ ์ํฅ์ ๋ฏธ์น๋์ง ๋ถ์ํ์๋ค. ๋์ฑ ํฐ mask filling model์ DetectGPT๊ฐ ์ ์ฌ์ ์ธ semantic ๊ณต๊ฐ์์ log probability์ curvature์ ์ธก์ ํ๊ฒ ํจ์ผ๋ก์จ ๋์ฑ ํฅ์๋ ์ฑ๋ฅ์ ์ด๋์ด๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ฑ ํฐ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ ์ด๋ฌํ ์ ์ฌ์ ๊ณต๊ฐ์ ๋์ฑ ์ ํํํ๊ฒ ํด์ฃผ์๋ค. ์ด๋ ๋ค์์ ๊ทธ๋ฆผ 6์ ๋ณด๋ฉด ํ์ธํ ์ ์๋ค.
Impact of Number of Perturbations for DetectGPT ๋ง์ง๋ง์ผ๋ก DetectGPT์ ์ฌ์ฉ๋๋ perturbation์ ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ถ์ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, perturbation์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ๋ ํฅ์๋๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ์ง๋ง, 100 perturbation๋ถํฐ๋ ์ฑ๋ฅ์ด ์๋ ดํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ค์์ ๊ทธ๋ฆผ 7์ ์ด๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
5. Discussion
LLM์ด ๋ฐ์ ์ ๋ฐ์ ์ ๊ฑฐ๋ญํจ์ ๋ฐ๋ผ์ LLM์ ๋์ฑ ๋งค๋ ฅ์ ์ธ ํด์ด ๋์ด๊ฐ ๊ฒ์ด๋ค. ํ์ง๋ง, ์ด๋ ์๋ ์ ๊ฒ์ธ ๊ฒ์ด ์ด๋ฅผ ์ ์ฌ์ฉํ๋ค๋ฉด ์ด๋งํผ ์ ์ฉํ ์๊ฐ ์๋๋ฐ, ๋ง์ฝ ์ด๋ฅผ ์ ์ฉํ๊ฒ ๋๋ค๋ฉด ์ฌํ์ ์น๋ช ์ ์ธ ์ํฅ์ ๋ผ์น ๊ฒ์ด๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด human-written text์ธ์ง model-generated text์ธ์ง ๊ตฌ๋ถํ๋ ๊ธฐ์ ์ด ํ์ํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ํด zero-shot machine-generated text detection์ผ๋ก ์ ๊ทผํ์ฌ ์ค์ง log probability๋ง์ ์ฌ์ฉํ์ฌ text๊ฐ ์์ฑ๋ ๋ฌธ์ฅ์ธ์ง ์๋์ง๋ฅผ ๊ฐ์งํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค.
DetectGPT and Watermarking perturbation function์ ํ ๊ฐ์ง ํด์์ ๊ธฐ์กด์ ๋ฌธ์ฅ๊ณผ ๊ตฌ๋ฌธ์ ์ผ๋ก ์ ์ฌํ๊ฒ rephraseํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ํํ์ด ๊ธฐ์กด์ passage๋ณด๋ค ์ฒด๊ณ์ ์ผ๋ก ํ๋ฅ ์ด ๋ฎ๋ค๋ฉด ๋ชจ๋ธ์ ์ฌ์ฉ๋ ํน์ ํํ์ ๋ํ ํธํฅ์ ๋ ธ์ถํ๊ณ ์๋ ๊ฒ์ด๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, LLM์ด ์์ง ์ฌ๋ ์์ค์ผ๋ก ํ๋ด๋ด์ง๋ฅผ ๋ชปํด์ ์์๋ฆฌ์ ์ํฐ๋งํฌ๋ฅผ ๋จ๊ธด๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ํด์์ ์ํ๋ฉด, model์ output์ ์๋์ผ๋ก ์ํฐ๋งํฌ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด DetectGPT์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ ๊ฒ์ด๋ค.
Limitations DetectGPT์ ๊ฐ์ zero-shot model-generated text detection์ ์ํ ํ๋ฅ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํ ๊ฐ์ง ์ ํ์ ๋ฌธ์ ์ ๋ชจ๋ธ์ log probability๋ฅผ ํ๊ฐํ ์ ์๋ค๋ whitebox-setting์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก DetectGPT๋ ๋ค๋ฅธ detection method๋ณด๋ค compute ์์กด์ ์ด๋ผ์ ๋ง์ ๋น์ฉ์ ์๊ตฌํ๊ฒ ๋๋ค๋ ํ๊ณ๊ฐ ์๋ค.
์ถ์ฒ
https://arxiv.org/pdf/2301.11305v1.pdf
https://velog.io/@jhbale11/DetectGPT2023%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0