Insight ๐Ÿ˜Ž

ChatGPT์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง€๊ณ  ์žˆ๋‹ค๊ตฌ?!?!? ๐Ÿ˜ฒ๐Ÿ˜ฒ

Cartinoe 2023. 7. 31. 15:49

Did you hear that..? ๐Ÿ˜ฑ

 ์š”์ฆ˜ ์„ธ๊ฐ„์— ๋– ๋„๋Š” ํ•˜๋‚˜์˜ ์†Œ๋ฌธ์ด ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด์ œ๋Š” ์šฐ๋ฆฌ์—๊ฒŒ ์นœ์ˆ™ํ•ด์ง„, ์˜คํžˆ๋ ค ์—†์œผ๋ฉด ๋ถˆํŽธํ•จ์„ ๋А๋‚„ ์ˆ˜ ์žˆ์„ ์ •๋„๋กœ ๊ฐ€๊นŒ์›Œ์ง„ ChatGPT์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์กŒ๋‹ค๋Š” ์†Œ๋ฌธ์ด๋‹ค!! ๐Ÿ˜ฎ ์‹ค์ œ ์–ด๋–ค ์†Œ๋ฌธ๋“ค์ด ์žˆ๋Š”์ง€์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ธฐ ์ „์— ์šฐ์„  ์ตœ๊ทผ ChatGPT์™€ GPT-4์˜ ์ •ํ™•ํ•œ ์ฐจ์ด์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ , ์ตœ๊ทผ ์ด ๋ชจ๋ธ๋“ค์— ์ƒ๊ธด ๋ณ€ํ™”์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž. 

 

 ChatGPT์™€ GPT-4๋Š” ๊ทธ ์‚ฌ์šฉ๋œ ๋ชจ๋ธ์— ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ChatGPT๋Š” GPT-3.5์— RLHF๋ฅผ ์ง„ํ–‰ํ•œ ๋ชจ๋ธ์ด๊ณ , GPT-4๋Š” ๋ง ๊ทธ๋Œ€๋กœ GPT-3.5์—์„œ ํ›จ์”ฌ ๋” ๋ฐœ์ „๋œ GPT-4 ๋ชจ๋ธ์„ ๋งํ•œ๋‹ค. (GPT-4์— ๋Œ€ํ•ด์„œ๋Š” ์ž์„ธํžˆ ๋ฐํ˜€์ง„ ๊ฒƒ์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ์ •ํ™•ํ•œ ๋น„๊ต๋Š” ๋ถˆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค,, ๐Ÿ˜“) OpenAI์—์„œ ์ œ๊ณตํ•˜๋Š” ์ด ๋ชจ๋ธ๋“ค์˜ API๋Š” ๊ฐ๊ฐ 'gpt-3.5-turbo'์™€ 'gpt-4'์ด๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์˜ API๋Š” ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ์กฐ๊ธˆ์”ฉ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋˜๋Š”๋ฐ ์ด๋ ‡๊ฒŒ ์—…๋ฐ์ดํŠธ๋  ๋•Œ๋งˆ๋‹ค API ์ด๋ฆ„์˜ ๋’ค์— ๋„˜๋ฒ„๋ง์ด ๋ถ™๊ฒŒ ๋œ๋‹ค. (older version: 'gpt-3.5-turbo-0301' / newer version: 'gpt-3.5-turbo-0613') ์ด๋ฒˆ์— ์ƒˆ๋กญ๊ฒŒ ๋‚˜์˜จ gpt-3.5-turbo-0613๊ณผ gpt-4-0613์—์„œ ์‚ฌ๋žŒ๋“ค์˜ 'ChatGPT์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง„ ๊ฒƒ ๊ฐ™์€๋ฐ..? ๐Ÿค”'์™€ ๊ฐ™์€ ์‚ฌ๋žŒ๋“ค์˜ ์˜๊ตฌ์‹ฌ์ด ํ•˜๋‚˜ ๋‘˜ ๋‚˜์˜ค๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค. ์‹ค์ œ๋กœ ์‹คํ—˜์„ ํ†ตํ•ด ChatGPT์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง€๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€ ์—ฐ๊ตฌ๋“ค๋„ ์†์†๋“ค์ด ๋‚˜์˜ค๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด์„œ ์ง„์งœ๋กœ ChatGPT์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง„ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ์ง„์ง€ํ•œ ์˜๊ตฌ์‹ฌ์„ ํ’ˆ๊ฒŒ ๋งŒ๋“ค์–ด๊ฐ€๊ณ  ์žˆ๋‹ค.

 

 ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ด๋Ÿฌํ•œ ChatGPT ์„ฑ๋Šฅ ํ•˜๋ฝ์˜ ์ง„์‹ค์„ ํŒŒํ—ค์ณ๋ณด๊ณ , ์„ฑ๋Šฅ ํ•˜๋ฝ์„ ์ œ์‹œํ•œ ๋…ผ๋ฌธ๋“ค์— ๋Œ€ํ•ด ์‚ดํŽด๋ณธ ๋’ค, ํ•„์ž์˜ ์ƒ๊ฐ์— ๋Œ€ํ•ด์„œ ๊ฐ„๋žตํ•˜๊ฒŒ ๋งํ•ด๋ณด๊ณ ์ž ํ•œ๋‹ค! ๐Ÿ˜„ ๊ทธ๋Ÿผ ์‹œ์ž‘ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค!

 

OpenAI์—์„œ ์ œ๊ณตํ•˜๋Š” GPT-4 & GPT-3.5 API (์ถœ์ฒ˜: https://openai.com/pricing)

 

Has the performance of ChatGPT really decreased? ๐Ÿคจ

 ChatGPT์˜ ๋ช‡๋ช‡ ์‚ฌ์šฉ์ž๋“ค์€ ChatGPT์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง€๊ณ  ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•˜๋ฉด์„œ, '์˜ˆ์ „์—๋Š” ํŽ˜๋ผ๋ฆฌ๋ฅผ ๋ชฐ์•˜๋‹ค๋ฉด, ์ง€๊ธˆ์€ ๊ณ ์žฅ๋‚œ ํŠธ๋Ÿญ์„ ๋ชจ๋Š” ๋“ฏํ•œ ๋А๋‚Œ์ด์—์š”.'์™€ ๊ฐ™์ด ๋งํ•˜๊ธฐ๋„ ํ•˜์˜€๋‹ค. ์ผ๋ถ€ ์‚ฌ์šฉ์ž๋“ค์€ ์ด์™€ ๊ฐ™์€ ์ฃผ์žฅ์„ ํ•˜๋ฉด์„œ GPT-4 ๋ชจ๋ธ์ด ํ•˜๋‚˜์˜ ๋ฒ”์šฉ์ ์ธ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ Expert Model(์ „๋ฌธ๊ฐ€ ๋ชจ๋ธ)์˜ ๋ฏน์Šค ๋ฐฉ์‹์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ์ง€ ์˜๋ฌธ์„ ํ’ˆ๊ณ  ์žˆ๋‹ค. ์ด์— ๋Œ€ํ•ด OpenAI์˜ ์ž…์žฅ์€ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง„ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์˜คํžˆ๋ ค ํ–ฅ์ƒ๋๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.

 

 ์ด๋ ‡๊ฒŒ ์–‘์ชฝ์˜ ์ž…์žฅ์ด ํŒฝํŒฝํ•œ ๊ฐ€์šด๋ฐ, ๊ณผ์—ฐ ๋ˆ„๊ตฌ์˜ ๋ง์ด ๋งž๋Š” ๊ฑธ๊นŒ? ๋А๋‚Œ์ ์ธ ์ด์œ ๋กœ๋Š” ์ •ํ™•ํ•œ ํ•ด์„ค์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ChatGPT์˜ ์„ฑ๋Šฅ ์ €ํ•˜์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๋ฉด์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ•ด๋ณธ ๋…ผ๋ฌธ๊ณผ ์—ฐ๊ตฌ์— ๋Œ€ํ•ด ์–˜๊ธฐํ•ด ๋ณด๋ฉด์„œ ํŒŒ์•…ํ•ด ๋ณด๋„๋ก ํ•˜์ž! ๐Ÿ˜™

 

How Is ChatGPT's Behavior Changing over Time? (Chen et al., 2023)

 Stanford University์™€ UC Berkely์—์„œ ๋‚ด๋†“์€ ๋…ผ๋ฌธ์ธ 'How Is ChatGPT's Behavior Changing over Time?' ์ด๋ผ๋Š” ๋…ผ๋ฌธ์—์„œ๋Š” ๊ตฌํ˜• ๋ฒ„์ „์ธ 3์›” ๋ฒ„์ „ ๋ชจ๋ธ๋“ค๊ณผ ์‹ ํ˜• ๋ฒ„์ „์ธ 6์›” ๋ฒ„์ „ ๋ชจ๋ธ๋“ค์„ ๋ช‡ ๊ฐœ์˜ task์— ๋Œ€ํ•ด์„œ ๋น„๊ตํ•ด ๋ณด๋ฉด์„œ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์ด ํ•˜๋ฝ๋˜์—ˆ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ณด์—ฌ์ค€๋‹ค. ๋ฌผ๋ก  ํŠน์ • task์— ๋Œ€ํ•ด์„œ๋Š” ์•ˆ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ธด ํ–ˆ์ง€๋งŒ, ์ „๋ฐ˜์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์‚ด์ง ๊ฐœ์„ ๋˜์—ˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฐœ์š”๋กœ ๋…ผ๋ฌธ์˜ ๋‚ด์šฉ์€ ์ง„ํ–‰๋œ๋‹ค. 

 

 ๋…ผ๋ฌธ์—์„œ๋Š” ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์กŒ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ์ด 4๊ฐ€์ง€์˜ ๋„๋ฉ”์ธ์—์„œ ๋‹ค์Œ์˜ ํ‰๊ฐ€ ์˜์—ญ์œผ๋กœ ๋‹ค์Œ์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ๊ฐ๊ฐ์˜ task์— ๋Œ€ํ•ด์„œ๋Š” ํ•˜๋‚˜์˜ evaluation dataset์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. 

 

  • ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ: ์ฃผ์–ด์ง„ ์ˆ˜๊ฐ€ ์†Œ์ˆ˜์ธ์ง€ ํŒ๋‹จํ•˜๋Š” ๋ฌธ์ œ
  • ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ ์‘๋‹ต: ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•œ answer rate ํ‰๊ฐ€
  • ์ฝ”๋“œ ์ƒ์„ฑ: ์‹คํ–‰์„ฑ๊ณผ ์ฝ”๋“œ์˜ ์žฅํ™ฉ์„ฑ ํ‰๊ฐ€
  • ์‹œ๊ฐ์  ์ถ”๋ก : ์ •ํ™•ํžˆ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€

 

How Is ChatGPT's Behavior Changing over Time? (์ถœ์ฒ˜: ํ•ด๋‹น ๋…ผ๋ฌธ)

 

 ์‹ค์ œ ChatGPT์™€ GPT-4์˜ 3์›” ๋ฒ„์ „๊ณผ 6์›” ๋ฒ„์ „์„ ๋น„๊ตํ•ด๋ณด๋‹ˆ ์ƒ๋‹นํžˆ ์ถฉ๊ฒฉ์ ์ธ ๊ฒฐ๊ณผ๋“ค์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๋Œ€๋žต์ ์ธ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ChatGPT์™€ GPT-4 ๋ชจ๋‘ ์„ฑ๋Šฅ์ด ์˜คํžˆ๋ ค ์•ˆ ์ข‹์•„์ง„ ๊ฒƒ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค! ๐Ÿ˜ฒ task ํ•˜๋‚˜ํ•˜๋‚˜์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ถ„์„ํ•ด ๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ: GPT-4์˜ ๊ฒฝ์šฐ, verbosity(์žฅํ™ฉ์„ฑ)์ด ์ƒ๋‹นํžˆ ์ค„์–ด๋“ค๋ฉด์„œ CoT ๋Šฅ๋ ฅ์ด ์ค„์–ด๋“ค๊ณ  ๊ทธ์— ๋”ฐ๋ผ์„œ ์„ฑ๋Šฅ๋„ ์ €ํ•˜๋œ ๊ฒƒ ๊ฐ™์Œ. ChatGPT(GPT-3.5)์˜ ๊ฒฝ์šฐ verbosity๊ฐ€ ์ฆ๊ฐ€ํ•˜๋ฉฐ ์ถ”๋ก  ์Šคํ…์„ ์ž‘์„ฑํ•˜๊ธฐ ์‹œ์ž‘ํ•˜๋ฉฐ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋œ ๊ฒƒ ๊ฐ™์Œ.
  • ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ: More safe, Less rationale! GPT-4์˜ ๊ฒฝ์šฐ ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•ด answer rate๊ฐ€ ์ค„์–ด๋“ค์—ˆ๊ณ , response length๋„ ์ƒ๋‹นํžˆ ์ค„์–ด๋“ค๋ฉด์„œ, ์™œ ์‘๋‹ต์— ๊ฑฐ๋ถ€ํ•œ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ์ด์œ ๋ฅผ ๋” ์ ๊ฒŒ ์ œ๊ณตํ•ด์ฃผ๊ธฐ ์‹œ์ž‘ํ•จ. ChatGPT์˜ ๊ฒฝ์šฐ์— answer rate๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ , GPT-4์™€ ๋น„์Šทํ•˜๊ฒŒ less rationale ํ•œ ๊ฒฝํ–ฅ์„ ๋ณด์—ฌ์คฌ์Œ.
  • ์ฝ”๋“œ ์ƒ์„ฑ: More verbiage, Less Executable! GPT-4์˜ ๊ฒฝ์šฐ ์‹คํ–‰ ๊ฐ€๋Šฅ๋„๊ฐ€ ํ›จ์”ฌ ๋‚ฎ์•„์กŒ๊ณ , ์žฅํ™ฉํ•จ์€ GPT-3.5์— ๋น„ํ•ด ๋Š˜์–ด๋‚œ ๋ชจ์Šต์„ ๋ณด์—ฌ์คŒ(์ฝ”๋“œ์—์„œ ์žฅํ™ฉํ•จ์€ ์ฃผ์„์„ ๋” ์“ด ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค). GPT-3.5์˜ ๊ฒฝ์šฐ์— ์‹คํ–‰ ๊ฐ€๋Šฅ๋„๊ฐ€ ๋‚ฎ์•„์กŒ๊ณ , ์žฅํ™ฉํ•จ์€ ์•„์ฃผ ์‚ด์ง ๋Š˜์–ด๋‚จ.
  • ์‹œ๊ฐ์  ์ถ”๋ก : ๋ฏธ๋ฏธํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ์Œ. 90%์˜ ๊ฒฝ์šฐ์— 3์›” ๋ฒ„์ „๊ณผ 6์›” ๋ฒ„์ „์€ ๋˜‘๊ฐ™์€ output์„ ๋ณด์—ฌ์คฌ๊ณ , ์ „๋ฐ˜์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š๊ธฐ๋„ ํ•˜๊ณ , 3์›” ๋ฒ„์ „์—์„œ๋Š” ์„ฑ๊ณตํ–ˆ๋˜ ๋ฌธ์ œ๋ฅผ 6์›” ๋ฒ„์ „์—์„œ๋Š” ์‹คํŒจํ•˜๋Š” ๋“ฑ์˜ ๋ชจ์Šต์„ ๋ณด์—ฌ์ฃผ๊ธฐ๋„ ํ•˜์˜€์Œ.

 

 ์œ„์˜ ๊ฒฐ๊ณผ๋“ค์„ ๋ณด๋ฉด ํ™•์‹คํžˆ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง„ ๊ฒƒ ๊ฐ™์€ ๋А๋‚Œ์ด ๋“ค๊ฒŒ ๋œ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉด์„œ ์•ž์œผ๋กœ ChatGPT์™€ GPT-4์— ๋Œ€ํ•œ ๊ณ„์†์ ์ธ ๋ชจ๋‹ˆํ„ฐ๋ง์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์ฃผ์žฅํ•œ๋‹ค. ๐Ÿ˜

 

Is the new gpt-3.5-turbo Model Worse? (Refuel Team, 2023)

 Stanford University์™€ UC Berkely์˜ ์—ฐ๊ตฌ์— ๋”๋ถˆ์–ด์„œ Refuel Team์—์„œ๋„ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ ๋ณ€ํ™”์— ๋Œ€ํ•ด์„œ ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ํŠน์ดํ•˜๊ฒŒ๋„ ์ด ์—ฐ๊ตฌ์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ•œ ์ง€ํ‘œ๋Š” ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ํ‰๊ฐ€๊ฐ€ ์•„๋‹ˆ๋ผ ๋ผ๋ฒจ๋ง์„ ํ†ตํ•œ ๋ผ๋ฒจ์˜ ํ€„๋ฆฌํ‹ฐ๋ฅผ ํ‰๊ฐ€ํ•˜์˜€๋‹ค! ๐Ÿ˜ฎ ์ „์ฒด์ ์ธ ์‹คํ—˜ ๊ฒฐ๊ณผ์˜ ๊ฐœ์š”๋ฅผ ์‚ดํŽด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • gpt-3.5-turbo-0613: gpt-3.5-turbo-0301์— ๋น„ํ•ด์„œ ๋” ๋นจ๋ผ์ง„ ๋ชจ์Šต์„ ๋ณด์—ฌ์คฌ์ง€๋งŒ, ๋ผ๋ฒจ๋ง ํ€„๋ฆฌํ‹ฐ๋Š” 8๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹ ์ค‘ 6๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋–จ์–ด์ง€๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๋‹ค. ๐Ÿƒ๐Ÿ˜“
  • gpt-4-0613: GPT-4์— ๋น„ํ•ด์„œ ๋” ๋นจ๋ผ์กŒ์ง€๋งŒ, ๋ผ๋ฒจ๋ง ํ€„๋ฆฌํ‹ฐ๋Š” ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง€์ง€ ์•Š์•˜๋‹ค. ๐Ÿƒ๐Ÿ˜‘

 

 ์‹คํ—˜์— ์‚ฌ์šฉ๋œ method๋Š” ์—ฌ๋Ÿฌ NLP task dataset์— ๋Œ€ํ•ด gpt-3.5-turbo์™€ gpt-4์˜ ์„ฑ๋Šฅ์„ label quality์™€ turnaround time์„ ๊ธฐ์ค€์œผ๋กœ ์‚ผ์•„์„œ ํ‰๊ฐ€๋ฅผ ํ•˜์˜€๋‹ค. ๊ฐ๊ฐ์˜ ํ‰๊ฐ€ ์˜์—ญ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์„ค๋ช…์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • Label Quality: ์ƒ์„ฑ๋œ ๋ผ๋ฒจ๊ณผ ground-truth ๋ผ๋ฒจ ๊ฐ„์˜ ์ผ์น˜ ๐ŸŸฐ
  • Turnaround Time: ๋ผ๋ฒจ ๋‹น ์†Œ์š”๋œ ์ƒ์„ฑ ์‹œ๊ฐ„ โฑ๏ธ

 

  ์ด๋Ÿฌํ•œ ํ‰๊ฐ€ ์˜์—ญ์„ ๊ฐ€์ง€๊ณ  ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•œ ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

 

๋ผ๋ฒจ๋ง์„ ์œ„ํ•ด ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹ ๋ฆฌ์ŠคํŠธ (์ถœ์ฒ˜: https://www.refuel.ai/blog-posts/gpt-3-5-turbo-model-comparison)

 

 ์ด๋ ‡๊ฒŒ ํ•ด์„œ ์–ป์–ด์ง„ label quality์™€ turnaround time์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์•Œ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ๋Œ€๋‹ค์ˆ˜์˜ task dataset์—์„œ gpt-3.5-turbo์™€ gpt-4๋Š” ๋–จ์–ด์ง€๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๊ณ , ํ‰๊ท  ์„ฑ๋Šฅ์—์„œ๋„ gpt-3.5-turbo๋Š” ๊ธฐ์กด๋ณด๋‹ค ๋” ๋–จ์–ด์ง€๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๋‹ค. ๐Ÿ˜“ ๊ทธ๋ฆฌ๊ณ  gpt-3.5-turbo์™€ gpt-4 ๋‘˜ ๋‹ค CONLL ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋ณด์—ฌ์คฌ๋Š”๋ฐ, ์ด๊ฒƒ์€ ์•„๋งˆ ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ด ๋ฐ์ดํ„ฐ์…‹์ด ํฌํ•จ๋˜์–ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ผ ๊ฒƒ์œผ๋กœ ์ถ”์ •ํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ๐Ÿ™‚

 

Label Quality ๋น„๊ต ๊ฒฐ๊ณผ (์ถœ์ฒ˜: https://www.refuel.ai/blog-posts/gpt-3-5-turbo-model-comparison)

 

 ๊ทธ๋ฆฌ๊ณ  Turnaround Time์— ๋Œ€ํ•ด์„œ๋Š” ํ™•์‹คํžˆ 6์›” ๋ฒ„์ „์ด 3์›” ๋ฒ„์ „๋ณด๋‹ค ๋น ๋ฅธ ๋ชจ์Šต์„ ๋ณด์—ฌ์คฌ๋‹ค. ๐Ÿƒ ์ด๋ฅผ ๋ฏธ๋ฃจ์–ด ๋ณด์•„ 3์›” ๋ฒ„์ „์— ๋น„ํ•ด์„œ 6์›” ๋ฒ„์ „์˜ gpt-3.5-turbo์™€ gpt-4๋Š” ์„ฑ๋Šฅ์€ ์•ˆ ์ข‹์•„์กŒ์œผ๋‚˜, ๊ทธ๋งŒํผ ๋นจ๋ผ์กŒ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

Turnaround Time ๋น„๊ต ๊ฒฐ๊ณผ (์ถœ์ฒ˜: https://www.refuel.ai/blog-posts/gpt-3-5-turbo-model-comparison)

 

 ํ™•์‹คํžˆ gpt-3.5-turbo-0613์€ gpt-3.5-turbo-0301์— ๋น„ํ•ด ๋–จ์–ด์ง€๋Š” ๋ผ๋ฒจ๋ง ํ€„๋ฆฌํ‹ฐ๋ฅผ ๋ณด์—ฌ์ฃผ๊ธฐ๋Š” ํ•˜๋‚˜, ๊ทธ๋งŒํผ ๋” ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์—ฌ์ฃผ๊ธฐ๋„ ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์ด ์‹คํ—˜์—์„œ๋Š” ๋ผ๋ฒจ๋ง ํ€„๋ฆฌํ‹ฐ์— ๋Œ€ํ•ด์„œ๋งŒ ์•Œ์•„๋ณธ ๊ฒƒ์œผ๋กœ ๋”์šฑ ์ •๋ฐ€ํ•œ ๋ถ„์„์„ ์œ„ํ•ด์„œ๋Š” ๋” ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์ด ํ•„์š”ํ•  ๊ฒƒ์ด๋ผ๊ณ  ์—ฐ๊ตฌ์ง„๋“ค์„ ์ฃผ์žฅํ•œ๋‹ค. ๐Ÿ˜‰

 

So, What's the truthโ“ ๐Ÿคจ

 ์ด๋ ‡๊ฒŒ ํ•ด์„œ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง€๊ณ  ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ ๋…ผ๋ฌธ๊ณผ ์—ฐ๊ตฌ๋“ค์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์•˜๋‹ค. ๊ธ€์„ ์ฝ์œผ๋ฉด์„œ ์ ์ž–์ด ์ถฉ๊ฒฉ์„ ๋ฐ›์•˜์„ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ๐Ÿซฃ ์ผ๋‹จ ํ•„์ž๋ถ€ํ„ฐ๋„ ๋…ผ๋ฌธ๊ณผ ์—ฐ๊ตฌ๋ฅผ ๋ณด๋ฉด์„œ ์ ์ž–์ด ์ถฉ๊ฒฉ์„ ๋ฐ›์•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค! ๐Ÿ˜„ ์™„๋ฒฝํ•œ ์ค„๋กœ๋งŒ ์•Œ๊ณ  ์žˆ์—ˆ๋˜ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์ด ๋ฒ„์ „์ด ์—…๊ทธ๋ ˆ์ด๋“œ๋จ์— ๋”ฐ๋ผ์„œ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง„ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์˜คํžˆ๋ ค ์•ˆ ์ข‹์•„์กŒ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค! ๋…์ž๋“ค๋„ ์ด์™€ ๊ฐ™์€ ์ƒ๊ฐ์„ ๊ฐ€์ง€๊ณ  ์žˆ์„ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š”๋ฐ, ๋งŒ์•ฝ์— ์ด๋Ÿฐ ์ƒ๊ฐ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด, ๋…์ž๋“ค๋„ ํ•„์ž์ฒ˜๋Ÿผ '์„ฑ๊ธ‰ํ•œ ์ผ๋ฐ˜ํ™”์˜ ์˜ค๋ฅ˜'์— ๋น ์ง€๊ฒŒ ๋œ ๊ฒƒ์ด๋‹ค! ๐Ÿ˜†

 

 ์šฐ์„  ์ •ํ™•ํ•œ ์ด์œ ๋ฅผ ๋งํ•˜๊ธฐ์— ์•ž์„œ์„œ ์ด ํฌ์ŠคํŒ…์˜ ๊ธ€์„ ๊ผผ๊ผผํžˆ ์ฝ์–ด๋ณธ ๋…์ž๋“ค์ด๋ผ๋ฉด ์•ž์„œ ์„ค๋ช…ํ•œ ๋…ผ๋ฌธ๊ณผ ์—ฐ๊ตฌ์—๋Š” ํ•œ ๊ฐ€์ง€ ํ—ˆ์ ์ด ์กด์žฌํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ณผ์—ฐ ๋ฌด์—‡์ผ๊นŒ? ๋ฌด์—‡์ด ์šฐ๋ฆฌ๋ฅผ '์„ฑ๊ธ‰ํ•œ ์ผ๋ฐ˜ํ™”์˜ ์˜ค๋ฅ˜'๋กœ ์ด๋Œ๊ฒŒ ๋œ ๊ฒƒ์ผ๊นŒ? ์ž, ์•ž์˜ ๋‚ด์šฉ๋“ค๋กœ ๋Œ์•„๊ฐ€์„œ ๋‘ ์—ฐ๊ตฌ์—์„œ ์ง„ํ–‰ํ•œ ์‹คํ—˜์— ๋Œ€ํ•ด์„œ ๋‹ค์‹œ ์ƒ๊ฐํ•ด ๋ณด์ž. ๋‘ ์—ฐ๊ตฌ์—์„œ ์ง„ํ–‰ํ•œ ์‹คํ—˜์ด ์ •๋ง wide-range ํ•œ๊ฐ€? ์•„๋‹ˆ๋‹ค!! ๐Ÿ™… ์˜คํžˆ๋ ค ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•œ task์˜ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ์ ๋‹ค๊ณ ๋Š” ์ƒ๊ฐํ•ด๋ณด์ง€ ์•Š์•˜๋Š”๊ฐ€? ๋ฌผ๋ก , ์‹ค์ œ๋กœ ์ € task๋“ค์—์„œ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์ด ๋” ์•ˆ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€ ๊ฒƒ์€ ์‚ฌ์‹ค์ด์ง€๋งŒ, ๊ทธ๋ ‡๋‹ค๊ณ  ํ•ด์„œ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์ด ์•…ํ™”๋˜์—ˆ๋‹ค๊ณ  ์‰ฝ๊ฒŒ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์˜ˆ๋ฅผ ๋“ค์–ด, 'How Is ChatGPT's Behavior Changing over Time?'์—์„œ ์†Œ์ˆ˜๋ฅผ ํŒ๋ณ„ํ•˜๋Š” ๋ฌธ์ œ๋งŒ์œผ๋กœ ๋ชจ๋ธ์˜ ์ˆ˜ํ•™์  ๋Šฅ๋ ฅ์„ ํŒ๊ฐ€๋ฆ„ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ํŒ๋‹จ์„ ๋‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ข€ ๋” ์ž์„ธํ•œ ์‹คํ—˜๊ณผ ๋ถ„์„์ด ํ•„์š”ํ•˜๋‹ค๊ณ  ํ•„์ž๋Š” ์ƒ๊ฐํ•œ๋‹ค. ๐Ÿซก ๋ˆ„๋ˆ„์ด ๋งํ•˜์ง€๋งŒ, ์ด๊ฒƒ์€ ํ•„์ž์˜ ์˜๊ฒฌ์ผ ๋ฟ ์ด ๊ธ€์„ ์ฝ๋Š” ๋…์ž๋ถ„๋“ค๋„ ๋…์ž๋ถ„๋“ค ๋‚˜๋ฆ„์˜ ์˜๊ฒฌ์„ ์ƒ๊ฐํ•ด ๋ณด๊ณ  ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์‚ฌ๊ณ ๋ฅผ ๊ฒช์–ด๋ณด๋ฉฐ ์ข€ ๋” ํ•ฉ๋ฆฌ์ ์ธ ์ƒ๊ฐ์„ ํ•  ์ˆ˜ ์žˆ๊ธธ ๋ฐ”๋ž€๋‹ค! ๐Ÿ˜‰

 

 ๋งˆ์ง€๋ง‰์œผ๋กœ ์ •๋ฆฌํ•ด๋ณด๋ฉด, ํ™•์‹คํžˆ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์€ ์–ด๋– ํ•œ task์— ๋Œ€ํ•ด์„œ๋Š” ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์ง€๊ธด ํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์•„์ง์€ ChatGPT์™€ GPT-4์˜ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์กŒ๋‹ค๊ณ  ๋‹จ์ • ์ง“๊ธฐ์—๋Š” ๊ทธ ์ฆ๊ฑฐ๋“ค์ด ๋„ˆ๋ฌด ๋ถˆ์ถฉ๋ถ„ํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ์ข€ ๋” ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์ด ์ง„ํ–‰๋ผ์„œ ์ง„์‹ค์„ ๋ฐํ˜€๋‚ผ ์ˆ˜ ์žˆ๊ธธ ๋ฐ”๋ž€๋‹ค! ๐Ÿซก