ChatGPT์ ์ฑ๋ฅ์ด ์ ์ข์์ง๊ณ ์๋ค๊ตฌ?!?!? ๐ฒ๐ฒ
Did you hear that..? ๐ฑ
์์ฆ ์ธ๊ฐ์ ๋ ๋๋ ํ๋์ ์๋ฌธ์ด ์๋ค๊ณ ํ๋ค. ์ด์ ๋ ์ฐ๋ฆฌ์๊ฒ ์น์ํด์ง, ์คํ๋ ค ์์ผ๋ฉด ๋ถํธํจ์ ๋๋ ์ ์์ ์ ๋๋ก ๊ฐ๊น์์ง ChatGPT์ ์ฑ๋ฅ์ด ์ ์ข์์ก๋ค๋ ์๋ฌธ์ด๋ค!! ๐ฎ ์ค์ ์ด๋ค ์๋ฌธ๋ค์ด ์๋์ง์ ๋ํด ์์๋ณด๊ธฐ ์ ์ ์ฐ์ ์ต๊ทผ ChatGPT์ GPT-4์ ์ ํํ ์ฐจ์ด์ ๋ํด ์์๋ณด๊ณ , ์ต๊ทผ ์ด ๋ชจ๋ธ๋ค์ ์๊ธด ๋ณํ์ ๋ํด์ ์์๋ณด๋๋ก ํ์.
ChatGPT์ GPT-4๋ ๊ทธ ์ฌ์ฉ๋ ๋ชจ๋ธ์ ์ฐจ์ด๊ฐ ์๋ค. ChatGPT๋ GPT-3.5์ RLHF๋ฅผ ์งํํ ๋ชจ๋ธ์ด๊ณ , GPT-4๋ ๋ง ๊ทธ๋๋ก GPT-3.5์์ ํจ์ฌ ๋ ๋ฐ์ ๋ GPT-4 ๋ชจ๋ธ์ ๋งํ๋ค. (GPT-4์ ๋ํด์๋ ์์ธํ ๋ฐํ์ง ๊ฒ์ด ์๊ธฐ ๋๋ฌธ์ ์ ํํ ๋น๊ต๋ ๋ถ๊ฐํฉ๋๋ค,, ๐) OpenAI์์ ์ ๊ณตํ๋ ์ด ๋ชจ๋ธ๋ค์ API๋ ๊ฐ๊ฐ 'gpt-3.5-turbo'์ 'gpt-4'์ด๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ API๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์กฐ๊ธ์ฉ ์ ๋ฐ์ดํธ๊ฐ ๋๋๋ฐ ์ด๋ ๊ฒ ์ ๋ฐ์ดํธ๋ ๋๋ง๋ค API ์ด๋ฆ์ ๋ค์ ๋๋ฒ๋ง์ด ๋ถ๊ฒ ๋๋ค. (older version: 'gpt-3.5-turbo-0301' / newer version: 'gpt-3.5-turbo-0613') ์ด๋ฒ์ ์๋กญ๊ฒ ๋์จ gpt-3.5-turbo-0613๊ณผ gpt-4-0613์์ ์ฌ๋๋ค์ 'ChatGPT์ ์ฑ๋ฅ์ด ์ ์ข์์ง ๊ฒ ๊ฐ์๋ฐ..? ๐ค'์ ๊ฐ์ ์ฌ๋๋ค์ ์๊ตฌ์ฌ์ด ํ๋ ๋ ๋์ค๊ธฐ ์์ํ๋ค. ์ค์ ๋ก ์คํ์ ํตํด ChatGPT์ ์ฑ๋ฅ์ด ์ ์ข์์ง๊ณ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ์ฐ๊ตฌ๋ค๋ ์์๋ค์ด ๋์ค๊ธฐ ์์ํ๋ฉด์ ์ง์ง๋ก ChatGPT์ ์ฑ๋ฅ์ด ์ ์ข์์ง ๊ฒ์ธ์ง์ ๋ํ ์ง์งํ ์๊ตฌ์ฌ์ ํ๊ฒ ๋ง๋ค์ด๊ฐ๊ณ ์๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ ์ด๋ฌํ ChatGPT ์ฑ๋ฅ ํ๋ฝ์ ์ง์ค์ ํํค์ณ๋ณด๊ณ , ์ฑ๋ฅ ํ๋ฝ์ ์ ์ํ ๋ ผ๋ฌธ๋ค์ ๋ํด ์ดํด๋ณธ ๋ค, ํ์์ ์๊ฐ์ ๋ํด์ ๊ฐ๋ตํ๊ฒ ๋งํด๋ณด๊ณ ์ ํ๋ค! ๐ ๊ทธ๋ผ ์์ํ๊ฒ ์ต๋๋ค!
Has the performance of ChatGPT really decreased? ๐คจ
ChatGPT์ ๋ช๋ช ์ฌ์ฉ์๋ค์ ChatGPT์ ์ฑ๋ฅ์ด ์ ์ข์์ง๊ณ ์๋ค๊ณ ์ฃผ์ฅํ๋ฉด์, '์์ ์๋ ํ๋ผ๋ฆฌ๋ฅผ ๋ชฐ์๋ค๋ฉด, ์ง๊ธ์ ๊ณ ์ฅ๋ ํธ๋ญ์ ๋ชจ๋ ๋ฏํ ๋๋์ด์์.'์ ๊ฐ์ด ๋งํ๊ธฐ๋ ํ์๋ค. ์ผ๋ถ ์ฌ์ฉ์๋ค์ ์ด์ ๊ฐ์ ์ฃผ์ฅ์ ํ๋ฉด์ GPT-4 ๋ชจ๋ธ์ด ํ๋์ ๋ฒ์ฉ์ ์ธ ๋ชจ๋ธ์ด ์๋๋ผ ์ฌ๋ฌ ๊ฐ์ง Expert Model(์ ๋ฌธ๊ฐ ๋ชจ๋ธ)์ ๋ฏน์ค ๋ฐฉ์์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ ๊ฒ์ด ์๋์ง ์๋ฌธ์ ํ๊ณ ์๋ค. ์ด์ ๋ํด OpenAI์ ์ ์ฅ์ ์ฑ๋ฅ์ด ๋จ์ด์ง ๊ฒ์ด ์๋๋ผ ์คํ๋ ค ํฅ์๋๋ค๊ณ ์ฃผ์ฅํ๋ค.
์ด๋ ๊ฒ ์์ชฝ์ ์ ์ฅ์ด ํฝํฝํ ๊ฐ์ด๋ฐ, ๊ณผ์ฐ ๋๊ตฌ์ ๋ง์ด ๋ง๋ ๊ฑธ๊น? ๋๋์ ์ธ ์ด์ ๋ก๋ ์ ํํ ํด์ค์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ChatGPT์ ์ฑ๋ฅ ์ ํ์ ๋ํด ๋ค๋ฃจ๋ฉด์ ์คํ์ ์งํํด๋ณธ ๋ ผ๋ฌธ๊ณผ ์ฐ๊ตฌ์ ๋ํด ์๊ธฐํด ๋ณด๋ฉด์ ํ์ ํด ๋ณด๋๋ก ํ์! ๐
How Is ChatGPT's Behavior Changing over Time? (Chen et al., 2023)
Stanford University์ UC Berkely์์ ๋ด๋์ ๋ ผ๋ฌธ์ธ 'How Is ChatGPT's Behavior Changing over Time?' ์ด๋ผ๋ ๋ ผ๋ฌธ์์๋ ๊ตฌํ ๋ฒ์ ์ธ 3์ ๋ฒ์ ๋ชจ๋ธ๋ค๊ณผ ์ ํ ๋ฒ์ ์ธ 6์ ๋ฒ์ ๋ชจ๋ธ๋ค์ ๋ช ๊ฐ์ task์ ๋ํด์ ๋น๊ตํด ๋ณด๋ฉด์ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ด ํ๋ฝ๋์๋ค๋ ์ฌ์ค์ ๋ณด์ฌ์ค๋ค. ๋ฌผ๋ก ํน์ task์ ๋ํด์๋ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, ์ ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ด์ง ๊ฐ์ ๋์์์ ๋ณด์ฌ์ฃผ๋ ๊ฐ์๋ก ๋ ผ๋ฌธ์ ๋ด์ฉ์ ์งํ๋๋ค.
๋ ผ๋ฌธ์์๋ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ด ์ ์ข์์ก๋ค๋ ๊ฒ์ ์ฆ๋ช ํ๊ธฐ ์ํด ์ด 4๊ฐ์ง์ ๋๋ฉ์ธ์์ ๋ค์์ ํ๊ฐ ์์ญ์ผ๋ก ๋ค์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ํ๊ฐ๋ฅผ ์งํํ์๋ค. ๊ฐ๊ฐ์ task์ ๋ํด์๋ ํ๋์ evaluation dataset์ ์ฌ์ฉํ์๋ค.
- ์ํ ๋ฌธ์ ํด๊ฒฐ: ์ฃผ์ด์ง ์๊ฐ ์์์ธ์ง ํ๋จํ๋ ๋ฌธ์
- ๋ฏผ๊ฐํ ์ง๋ฌธ ์๋ต: ๋ฏผ๊ฐํ ์ง๋ฌธ์ ๋ํ answer rate ํ๊ฐ
- ์ฝ๋ ์์ฑ: ์คํ์ฑ๊ณผ ์ฝ๋์ ์ฅํฉ์ฑ ํ๊ฐ
- ์๊ฐ์ ์ถ๋ก : ์ ํํ ์ผ์นํ๋์ง๋ฅผ ํ๊ฐ
์ค์ ChatGPT์ GPT-4์ 3์ ๋ฒ์ ๊ณผ 6์ ๋ฒ์ ์ ๋น๊ตํด๋ณด๋ ์๋นํ ์ถฉ๊ฒฉ์ ์ธ ๊ฒฐ๊ณผ๋ค์ ํ์ธํ ์ ์๋ค. ๋๋ต์ ์ธ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ChatGPT์ GPT-4 ๋ชจ๋ ์ฑ๋ฅ์ด ์คํ๋ ค ์ ์ข์์ง ๊ฒ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค! ๐ฒ task ํ๋ํ๋์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ์ํ ๋ฌธ์ ํด๊ฒฐ: GPT-4์ ๊ฒฝ์ฐ, verbosity(์ฅํฉ์ฑ)์ด ์๋นํ ์ค์ด๋ค๋ฉด์ CoT ๋ฅ๋ ฅ์ด ์ค์ด๋ค๊ณ ๊ทธ์ ๋ฐ๋ผ์ ์ฑ๋ฅ๋ ์ ํ๋ ๊ฒ ๊ฐ์. ChatGPT(GPT-3.5)์ ๊ฒฝ์ฐ verbosity๊ฐ ์ฆ๊ฐํ๋ฉฐ ์ถ๋ก ์คํ ์ ์์ฑํ๊ธฐ ์์ํ๋ฉฐ ์ฑ๋ฅ์ด ๊ฐ์ ๋ ๊ฒ ๊ฐ์.
- ๋ฏผ๊ฐํ ์ง๋ฌธ: More safe, Less rationale! GPT-4์ ๊ฒฝ์ฐ ๋ฏผ๊ฐํ ์ง๋ฌธ์ ๋ํด answer rate๊ฐ ์ค์ด๋ค์๊ณ , response length๋ ์๋นํ ์ค์ด๋ค๋ฉด์, ์ ์๋ต์ ๊ฑฐ๋ถํ ๊ฒ์ธ์ง์ ๋ํ ์ด์ ๋ฅผ ๋ ์ ๊ฒ ์ ๊ณตํด์ฃผ๊ธฐ ์์ํจ. ChatGPT์ ๊ฒฝ์ฐ์ answer rate๊ฐ ์ฆ๊ฐํ๊ณ , GPT-4์ ๋น์ทํ๊ฒ less rationale ํ ๊ฒฝํฅ์ ๋ณด์ฌ์คฌ์.
- ์ฝ๋ ์์ฑ: More verbiage, Less Executable! GPT-4์ ๊ฒฝ์ฐ ์คํ ๊ฐ๋ฅ๋๊ฐ ํจ์ฌ ๋ฎ์์ก๊ณ , ์ฅํฉํจ์ GPT-3.5์ ๋นํด ๋์ด๋ ๋ชจ์ต์ ๋ณด์ฌ์ค(์ฝ๋์์ ์ฅํฉํจ์ ์ฃผ์์ ๋ ์ด ๊ฒ์ ์๋ฏธํฉ๋๋ค). GPT-3.5์ ๊ฒฝ์ฐ์ ์คํ ๊ฐ๋ฅ๋๊ฐ ๋ฎ์์ก๊ณ , ์ฅํฉํจ์ ์์ฃผ ์ด์ง ๋์ด๋จ.
- ์๊ฐ์ ์ถ๋ก : ๋ฏธ๋ฏธํ ์ฑ๋ฅ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ก์. 90%์ ๊ฒฝ์ฐ์ 3์ ๋ฒ์ ๊ณผ 6์ ๋ฒ์ ์ ๋๊ฐ์ output์ ๋ณด์ฌ์คฌ๊ณ , ์ ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ข์ง ์๊ธฐ๋ ํ๊ณ , 3์ ๋ฒ์ ์์๋ ์ฑ๊ณตํ๋ ๋ฌธ์ ๋ฅผ 6์ ๋ฒ์ ์์๋ ์คํจํ๋ ๋ฑ์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ์์.
์์ ๊ฒฐ๊ณผ๋ค์ ๋ณด๋ฉด ํ์คํ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ด ์ ์ข์์ง ๊ฒ ๊ฐ์ ๋๋์ด ๋ค๊ฒ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด์ ์์ผ๋ก ChatGPT์ GPT-4์ ๋ํ ๊ณ์์ ์ธ ๋ชจ๋ํฐ๋ง์ด ํ์ํ๋ค๋ ๊ฒ์ ์ฃผ์ฅํ๋ค. ๐
Is the new gpt-3.5-turbo Model Worse? (Refuel Team, 2023)
Stanford University์ UC Berkely์ ์ฐ๊ตฌ์ ๋๋ถ์ด์ Refuel Team์์๋ ChatGPT์ GPT-4์ ์ฑ๋ฅ ๋ณํ์ ๋ํด์ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ํน์ดํ๊ฒ๋ ์ด ์ฐ๊ตฌ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋๋ฐ ์ฌ์ฉํ ์งํ๋ ํ๊ฐ ๋ฐ์ดํฐ์ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐ๊ฐ ์๋๋ผ ๋ผ๋ฒจ๋ง์ ํตํ ๋ผ๋ฒจ์ ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ์๋ค! ๐ฎ ์ ์ฒด์ ์ธ ์คํ ๊ฒฐ๊ณผ์ ๊ฐ์๋ฅผ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- gpt-3.5-turbo-0613: gpt-3.5-turbo-0301์ ๋นํด์ ๋ ๋นจ๋ผ์ง ๋ชจ์ต์ ๋ณด์ฌ์คฌ์ง๋ง, ๋ผ๋ฒจ๋ง ํ๋ฆฌํฐ๋ 8๊ฐ์ ๋ฐ์ดํฐ์ ์ค 6๊ฐ์ ๋ฐ์ดํฐ์ ์์ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๐๐
- gpt-4-0613: GPT-4์ ๋นํด์ ๋ ๋นจ๋ผ์ก์ง๋ง, ๋ผ๋ฒจ๋ง ํ๋ฆฌํฐ๋ ํฌ๊ฒ ๋ฌ๋ผ์ง์ง ์์๋ค. ๐๐
์คํ์ ์ฌ์ฉ๋ method๋ ์ฌ๋ฌ NLP task dataset์ ๋ํด gpt-3.5-turbo์ gpt-4์ ์ฑ๋ฅ์ label quality์ turnaround time์ ๊ธฐ์ค์ผ๋ก ์ผ์์ ํ๊ฐ๋ฅผ ํ์๋ค. ๊ฐ๊ฐ์ ํ๊ฐ ์์ญ์ ๋ํ ์์ธํ ์ค๋ช ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Label Quality: ์์ฑ๋ ๋ผ๋ฒจ๊ณผ ground-truth ๋ผ๋ฒจ ๊ฐ์ ์ผ์น ๐ฐ
- Turnaround Time: ๋ผ๋ฒจ ๋น ์์๋ ์์ฑ ์๊ฐ โฑ๏ธ
์ด๋ฌํ ํ๊ฐ ์์ญ์ ๊ฐ์ง๊ณ ํ๊ฐ๋ฅผ ์งํํ ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ ๊ฒ ํด์ ์ป์ด์ง label quality์ turnaround time์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๊ฒ ์ง๋ง, ๋๋ค์์ task dataset์์ gpt-3.5-turbo์ gpt-4๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ํ๊ท ์ฑ๋ฅ์์๋ gpt-3.5-turbo๋ ๊ธฐ์กด๋ณด๋ค ๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๐ ๊ทธ๋ฆฌ๊ณ gpt-3.5-turbo์ gpt-4 ๋ ๋ค CONLL ๋ฐ์ดํฐ์ ์์ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ณด์ฌ์คฌ๋๋ฐ, ์ด๊ฒ์ ์๋ง ์๋ก์ด ํ์ต ๋ฐ์ดํฐ์ ์ด ๋ฐ์ดํฐ์ ์ด ํฌํจ๋์ด ์์๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ผ๋ก ์ถ์ ํ๋ค๊ณ ํ๋ค. ๐
๊ทธ๋ฆฌ๊ณ Turnaround Time์ ๋ํด์๋ ํ์คํ 6์ ๋ฒ์ ์ด 3์ ๋ฒ์ ๋ณด๋ค ๋น ๋ฅธ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๐ ์ด๋ฅผ ๋ฏธ๋ฃจ์ด ๋ณด์ 3์ ๋ฒ์ ์ ๋นํด์ 6์ ๋ฒ์ ์ gpt-3.5-turbo์ gpt-4๋ ์ฑ๋ฅ์ ์ ์ข์์ก์ผ๋, ๊ทธ๋งํผ ๋นจ๋ผ์ก๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
ํ์คํ gpt-3.5-turbo-0613์ gpt-3.5-turbo-0301์ ๋นํด ๋จ์ด์ง๋ ๋ผ๋ฒจ๋ง ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋, ๊ทธ๋งํผ ๋ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค. ํ์ง๋ง ์ด ์คํ์์๋ ๋ผ๋ฒจ๋ง ํ๋ฆฌํฐ์ ๋ํด์๋ง ์์๋ณธ ๊ฒ์ผ๋ก ๋์ฑ ์ ๋ฐํ ๋ถ์์ ์ํด์๋ ๋ ๋ง์ ์ฐ๊ตฌ๋ค์ด ํ์ํ ๊ฒ์ด๋ผ๊ณ ์ฐ๊ตฌ์ง๋ค์ ์ฃผ์ฅํ๋ค. ๐
So, What's the truthโ ๐คจ
์ด๋ ๊ฒ ํด์ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ด ์ ์ข์์ง๊ณ ์๋ค๊ณ ์ฃผ์ฅํ ๋ ผ๋ฌธ๊ณผ ์ฐ๊ตฌ๋ค์ ๋ํด์ ์์๋ณด์๋ค. ๊ธ์ ์ฝ์ผ๋ฉด์ ์ ์์ด ์ถฉ๊ฒฉ์ ๋ฐ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค. ๐ซฃ ์ผ๋จ ํ์๋ถํฐ๋ ๋ ผ๋ฌธ๊ณผ ์ฐ๊ตฌ๋ฅผ ๋ณด๋ฉด์ ์ ์์ด ์ถฉ๊ฒฉ์ ๋ฐ์๊ธฐ ๋๋ฌธ์ด๋ค! ๐ ์๋ฒฝํ ์ค๋ก๋ง ์๊ณ ์์๋ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ด ๋ฒ์ ์ด ์ ๊ทธ๋ ์ด๋๋จ์ ๋ฐ๋ผ์ ์ฑ๋ฅ์ด ์ข์์ง ๊ฒ์ด ์๋๋ผ ์คํ๋ ค ์ ์ข์์ก๊ธฐ ๋๋ฌธ์ด๋ค! ๋ ์๋ค๋ ์ด์ ๊ฐ์ ์๊ฐ์ ๊ฐ์ง๊ณ ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋๋ฐ, ๋ง์ฝ์ ์ด๋ฐ ์๊ฐ์ ๊ฐ์ง๊ณ ์๋ค๋ฉด, ๋ ์๋ค๋ ํ์์ฒ๋ผ '์ฑ๊ธํ ์ผ๋ฐํ์ ์ค๋ฅ'์ ๋น ์ง๊ฒ ๋ ๊ฒ์ด๋ค! ๐
์ฐ์ ์ ํํ ์ด์ ๋ฅผ ๋งํ๊ธฐ์ ์์์ ์ด ํฌ์คํ ์ ๊ธ์ ๊ผผ๊ผผํ ์ฝ์ด๋ณธ ๋ ์๋ค์ด๋ผ๋ฉด ์์ ์ค๋ช ํ ๋ ผ๋ฌธ๊ณผ ์ฐ๊ตฌ์๋ ํ ๊ฐ์ง ํ์ ์ด ์กด์ฌํ๋ค๋ ๊ฒ์ ์ ์ ์์ ๊ฒ์ด๋ค. ๊ณผ์ฐ ๋ฌด์์ผ๊น? ๋ฌด์์ด ์ฐ๋ฆฌ๋ฅผ '์ฑ๊ธํ ์ผ๋ฐํ์ ์ค๋ฅ'๋ก ์ด๋๊ฒ ๋ ๊ฒ์ผ๊น? ์, ์์ ๋ด์ฉ๋ค๋ก ๋์๊ฐ์ ๋ ์ฐ๊ตฌ์์ ์งํํ ์คํ์ ๋ํด์ ๋ค์ ์๊ฐํด ๋ณด์. ๋ ์ฐ๊ตฌ์์ ์งํํ ์คํ์ด ์ ๋ง wide-range ํ๊ฐ? ์๋๋ค!! ๐ ์คํ๋ ค ํ๊ฐ๋ฅผ ์งํํ task์ ์๊ฐ ๋๋ฌด ์ ๋ค๊ณ ๋ ์๊ฐํด๋ณด์ง ์์๋๊ฐ? ๋ฌผ๋ก , ์ค์ ๋ก ์ task๋ค์์ ์๋ก์ด ๋ชจ๋ธ์ด ๋ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ๊ฒ์ ์ฌ์ค์ด์ง๋ง, ๊ทธ๋ ๋ค๊ณ ํด์ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ด ์ ํ๋์๋ค๊ณ ์ฝ๊ฒ ํ๋จํ ์ ์์๊น? ์๋ฅผ ๋ค์ด, 'How Is ChatGPT's Behavior Changing over Time?'์์ ์์๋ฅผ ํ๋ณํ๋ ๋ฌธ์ ๋ง์ผ๋ก ๋ชจ๋ธ์ ์ํ์ ๋ฅ๋ ฅ์ ํ๊ฐ๋ฆํ ์ ์์๊น? ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ๋ํ ํ๋จ์ ๋ด๋ฆฌ๊ธฐ ์ํด์๋ ์ข ๋ ์์ธํ ์คํ๊ณผ ๋ถ์์ด ํ์ํ๋ค๊ณ ํ์๋ ์๊ฐํ๋ค. ๐ซก ๋๋์ด ๋งํ์ง๋ง, ์ด๊ฒ์ ํ์์ ์๊ฒฌ์ผ ๋ฟ ์ด ๊ธ์ ์ฝ๋ ๋ ์๋ถ๋ค๋ ๋ ์๋ถ๋ค ๋๋ฆ์ ์๊ฒฌ์ ์๊ฐํด ๋ณด๊ณ ์ฌ๋ฌ ๊ฐ์ง ์ฌ๊ณ ๋ฅผ ๊ฒช์ด๋ณด๋ฉฐ ์ข ๋ ํฉ๋ฆฌ์ ์ธ ์๊ฐ์ ํ ์ ์๊ธธ ๋ฐ๋๋ค! ๐
๋ง์ง๋ง์ผ๋ก ์ ๋ฆฌํด๋ณด๋ฉด, ํ์คํ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ ์ด๋ ํ task์ ๋ํด์๋ ์ฑ๋ฅ์ด ์ ์ข์์ง๊ธด ํ๋ค. ํ์ง๋ง, ์์ง์ ChatGPT์ GPT-4์ ์ฑ๋ฅ์ด ์ ์ข์์ก๋ค๊ณ ๋จ์ ์ง๊ธฐ์๋ ๊ทธ ์ฆ๊ฑฐ๋ค์ด ๋๋ฌด ๋ถ์ถฉ๋ถํ๋ค. ๋ฐ๋ผ์ ์ข ๋ ๋ง์ ์ฐ๊ตฌ๋ค์ด ์งํ๋ผ์ ์ง์ค์ ๋ฐํ๋ผ ์ ์๊ธธ ๋ฐ๋๋ค! ๐ซก