GPT-4๋ ์ ๋ชปํ API ํธ์ถ์ ํ๋ค๊ณ ?!? - Gorilla๐ฆ: Large Language Model Connected with Massive APIs ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
The overview of this paper
LLM์ ์ต๊ทผ์ ์์ฒญ ๋ฐ์ ํ์ผ๋, ์ด๋ค์ API ํธ์ถ์ ํตํ ํจ๊ณผ์ ์ธ ํด ์ฌ์ฉ์ ๋ํ ์ ์ฌ์ฑ์ ๋ง์กฑ๋์ง ์์ ์ฑ ๋จ์์๋ค. ์ด ๋ ผ๋ฌธ์์๋ API ํธ์ถ ์์ฑ์์ GPT-4์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ fine-tuned LLaMA-based model์ธ Gorilla๐ฆ๋ฅผ ์๊ฐํ์๋ค. Gorilla๋ document retriever์ ํจ๊ป ์ฌ์ฉ๋ ๋, test-time ๋ฌธ์ ๋ณํ์ ์ ์ํ๊ธฐ ์ํ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ์ ์ฐํ ์ฌ์ฉ์ ์ ๋ฐ์ดํธ ๋๋ ๋ฒ์ ๋ณํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ์๋ค. ์ด๊ฒ์ LLM์ direct ํ๊ฒ prompting ํ ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ง๋ฅ๋จ๋ฆฌ๋ hallucination์ ๋ฌธ์ ์ ์ ์๋นํ ์ํํ์๋ค. ๋ํ ๋ ผ๋ฌธ์์๋ Gorilla์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ง๋ค์ด์ง HugguingFace, TorchHub, TensorHub API๋ฅผ ํฌํจํ๋ ๋ฐ์ดํฐ์ ์ธ API Bench๋ ์ ์ํ์๋ค.
Table of Contents
1. Introduction
2. Methodology
3. Evaluation
1. Introduction
๋ ผ๋ฌธ์์๋ API์ API ๋ฌธ์๋ฅผ ์ฌ์ฉํด์ ํฌ๊ณ , ovelapping ํ๊ณ , ๋ณํํ๋ tool set๋ก๋ถํฐ LLM์ด ์ ํํ๊ฒ API๋ฅผ ์ ํํ๋๋ก ํด์ฃผ๊ธฐ ์ํด Self-Instruct fine-tuning๊ณผ retrieval์ ์ฌ์ฉ์ ํ๊ตฌํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ๊ณ ์ข ์ข overlapping ๊ธฐ๋ฅ์ ๊ฐ์ง๋ API์ ๊ฑฐ๋ corpus์ธ API Bench๋ ๋ง๋ค์๋ค. ๋ํ Self-Instruct๋ฅผ ์ฌ์ฉํด์ API ๋น 10๊ฐ์ ์ฌ์ฉ์ question prompt๋ฅผ ์์ฑํ์๋ค. ๋ฐ๋ผ์ ๋ฐ์ดํฐ์ ์์ ๊ฐ entry๋ instruction ์ฐธ์กฐ API ์์ด ๋๋ค. ์์ฑ๋ API์ ์ ํ๋๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ผ๋ฐ์ ์ธ AST sub-tree ๋งค์นญ ๊ธฐ์ ์ ์ฑํํ์๋ค. ๋ ผ๋ฌธ์์๋ LLM์ ๋ํ functional ์ ํ๋์ hallucination ๋ฌธ์ ๋ฅผ ํด๋น ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉด์ ํ์ธํ์๋ค.
๊ทธ๋ค์์ ๋ ผ๋ฌธ์์๋ LLaMA-7B-based model์ API Bench ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ document retrieval๊ณผ ํจ๊ป fine-tune ํด์ Gorilla๋ฅผ ์ป์๋ค. Gorilla๋ API ๊ธฐ๋ฅ ์ ํ๋ ๋ฟ๋ง ์๋๋ผ hallucination ์ค๋ฅ๋ฅผ ์ค์ด๋ ์ธก๋ฉด์์ GPT-4๋ฅผ ์๋นํ ๋ฅ๊ฐํ์๋ค. ๊ทธ๋ฆผ 1์ ์์ output์ ๋ณด์ฌ์ค๋ค. ์ถ๊ฐ์ ์ผ๋ก Gorilla์ retrieval-aware training์ ๋ชจ๋ธ์ด API ๋ฌธ์ ๋ณํ์ ์ ์ํ ์ ์๊ฒ ํด ์ฃผ์๋ค.


2. Methodology
2-1. Dataset Collection
๋ฐ์ดํฐ์ ์์ง์ ์ํด HuggingFace์ 'The Model Hub', PyTorchHub, TensorFlowHub Model์ ๋ํ ๋ชจ๋ online model card๋ฅผ ๊ผผ๊ผผํ ๊ธฐ๋กํ์๋ค.
API Documentation. HuggingFace Hub, TensorFlow Hub, Torch Hub๋ก๋ถํฐ ์ป์ 1,645๊ฐ์ API ํธ์ถ์ ๋ํด ๋ชจ๋ธ ์นด๋๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํ์๋ค: {domain, framework, functionality, api_name, api_call, api_arguments, environment_requirements, example_code, performance, and description.}. ์ด๋ฌํ ํ๋๋ ML ๋๋ฉ์ธ ๋ด์ API ํธ์ถ์ ๋์ด RESTful API๋ฅผ ํฌํจํ์ฌ ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก ์ผ๋ฐํํ๊ธฐ ์ํด ์ ํํ๋ค.
Instruction Generation. ์ธ์กฐ instruction data๋ฅผ ์์ฑํ๊ธฐ ์ํด GPT-4๋ฅผ ์ฌ์ฉํ์ฌ Self-Instruct๋ฅผ ์งํํ์๋ค. ๋ ผ๋ฌธ์์๋ 3๊ฐ์ in-context example์ ์ฐธ์กฐ API ๋ฌธ์์ ํจ๊ป ์ ๊ณตํ๊ณ , ๋ชจ๋ธ์๊ฒ API๋ฅผ ๋ถ๋ฌ์ค๋ real-world ์ฌ์ฉ ์ผ์ด์ค๋ฅผ ์์ฑํ๋๋ก task๋ฅผ ์ํจ๋ค. 1,645๊ฐ์ API datapoint์ ๊ฐ๊ฐ์ ๋ํด ์ด 10๊ฐ์ instruction-API ์์ ์์ฑํ๊ธฐ ์ํด 6๊ฐ์ ํด๋น instruction example ์ค 3๊ฐ๋ฅผ ์ํ๋งํ์๋ค.

2-2. Gorilla
๊ตฌ์ฒด์ ์ผ๋ก API ํธ์ถ์ ๋ํด retrieve-aware ํ๊ฒ fine-tune ๋ LLaMA-7B model์ด Gorilla์ด๋ค. ๊ทธ๋ฆผ 3์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, {instruction, API} ์์ ์์ฑํ๊ธฐ ์ํด Self-Instruct๋ฅผ ์ฌ์ฉํ์๋ค. LLaMA๋ฅผ fine-tune ํ๊ธฐ ์ํด ์ด๊ฒ์ user-agent chat-style ๋ํ๋ก ๋ณ๊ฒฝํ์๋ค. ์ฌ๊ธฐ์ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ์ฌ์ฉ์์ ์์ด์ ํธ์ ๋ํด ๊ฐ๊ฐ ํ ๋ผ์ด๋์ ๋ํ์ด๋ค. ๊ทธ๋ค์์, ํ์ค instruction fine-tuning์ base LLaMA-7B model์ ๋ํด ์ํํ์๋ค. ์คํ์ ์ํด ๋ ผ๋ฌธ์์๋ retriever๋ฅผ ์ฌ์ฉํ๊ณ ์ฌ์ฉํ์ง ์๋ Gorilla๋ฅผ ํ์ต์์ผฐ๋ค.
API Call with Contraints. API ํธ์ถ์ ์ข ์ข ๋ด์ฌ์ ์ ์ฝ๊ณผ ํจ๊ป ์ค๊ฒ ๋๋ค. ์ด๋ฌํ ์ ์ฝ์ LLM์ด API์ ๊ธฐ๋ฅ์ ์ดํดํ ๋ฟ๋ง ์๋๋ผ ์๋ก ๋ค๋ฅธ ์ ์ฝ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ํธ์ถ์ ์นดํ ๊ณ ๋ฆฌํํ๋ค. LLM์ ์ฌ์ฉ์์ ํจ์์ ์ค๋ช ์ ์ดํดํ ์ ์์ด์ผ ํ ๋ฟ๋ง ์๋๋ผ, ์์ฒญ ์์ ์๋ฒ ๋ฉ๋์ด ์๋ ๋ค์ํ ์ ์ฝ์ ์ถ๋ก ํด์ผ ํ ํ์๊ฐ ์๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ทธ์ API ํธ์ถ์ ๊ธฐ๋ณธ์ ๊ธฐ๋ฅ์ ์ดํดํ๋ ๊ฒ์ ์ถฉ๋ถํ์ง ์๊ณ , ์ด๋ฌํ ํธ์ถ์ ๋๋ฐํ ์ ์ฝ์ ๋ณต์กํ ํ๊ฒฝ์ ๋ค๋ฃฐ ์ ์๋ ๋ฅ๋ ฅ๋ ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ค. ์ด๋ฌํ ๊ด์ฐฐ์ API์ ๋ํด LLM์ ํ์์ ์ผ๋ก fine-tune ํด์ผ ํ ํ์๊ฐ ์์ด์ง์ ๋ณด์ฌ์ค๋ค.
Retriever-Aware training. retriever์ ํจ๊ป ํ์ต์ ํ๊ธฐ ์ํด instruction-tuned ๋ฐ์ดํฐ์ ์ user prompt์ ์ถ๊ฐ์ ์ธ "Use this API documentation for reference: <retrieved_API_doc_JSON>"์ ์ถ๊ฐํ๋ค. ์ด๋ฅผ ํตํด ๋ ผ๋ฌธ์์๋ LLM์ด ์ด๋ฐ๋ถ ์ง๋ฌธ์ ์๋ตํ๊ธฐ ์ํด ์ง๋ฌธ์ ํ๋ฐ๋ถ๋ฅผ ๋ถ์ํ๊ธฐ ์ํด ๊ฐ๋ฅด์น๋ ๊ฒ์ ๋ชฉํ๋ก ์ผ์๋ค. ์ด๊ฒ์ ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ค๋ค.
- test-time ๋ณํ์ ์ ์ํ๊ฒ ๋ง๋ค์ด์ค
- In-Context Learning์ผ๋ก๋ถํฐ ์ฑ๋ฅ์ ๊ฐ์ ์ํด
- Hallucination error๋ฅผ ์ค์
Gorilla Inference. Gorilla์ ์ถ๋ก ์ ์ํ prompt๋ 2๊ฐ์ ๋ชจ๋๋ฅผ ๊ฐ์ง๋ค: zero-shot & with retrieval.
- zero-shot setting: ์ด prompt๋ Gorilla LLM์ ๋ค์ด๊ฐ๊ฒ ๋๊ณ , ๊ทธ๋ค์์ task์ ๋ชฉํ๋ฅผ ์ฑ์ทจํ๋๋ฐ ๋์์ ์ฃผ๋ API ํธ์ถ์ ๋ฐํํจ
- with retrieval: retriever๋ API ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฅ๋์ด ์๋ ๊ฐ์ฅ ์ต์ ์ ํ์ API ๋ฌธ์๋ฅผ ๊ฒ์ํจ. ๊ทธ ๋ค์์ ์ฌ์ฉ์ prompt์ ์ฐ๊ฒฐ๋จ.
2-3. Verifying APIs
Gorilla์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ์ด๋ค์ ๊ธฐ๋ฅ์ ๋๋ฑํจ์ ๋น๊ตํ์๋ค. ๋ฐ์ดํฐ์ ์ ์ด๋ค API๊ฐ LLM ํธ์ถ์ธ์ง ์ถ์ ํ๊ธฐ ์ํด AST ํธ๋ฆฌ ๋งค์นญ ์ ๋ต์ ์ฑํํ์๋ค. ์ด๋ ํ๋ณด API๊ฐ ์ฐธ์กฐ API์ sub-tree๋ฉด ์ด๊ฒ์ API๊ฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ๋๋ค๋ ๊ฒ์ด๋ค.
hallucination์ ์ ์ํ๊ธฐ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ AST ํธ๋ฆฌ ๋งค์นญ์ ์ฌ์ฉํด์ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ hallucination์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ด๋ค API์ sub-tree๋ ์๋ API ํธ์ถ๋ก ์ ์๋๋ค๊ณ ํ์๋ค. ์ด๊ฒ์ ์์ ํ ์์์ผ๋ก ๋ง๋ค์ด๋ธ ํด์ hallucination์ผ๋ก ๊ณ ๋ คํ๋ค๋ ๊ฒ์ด๋ค.
AST Sub-Tree Matching. ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์์ ์ด๋ค API๊ฐ LLM ํธ์ถ์ธ์ง๋ฅผ ํ๋ณํ๊ธฐ ์ํด AST sub-tree matching์ ์ํํ์๋ค.

3. Evaluation
๋ ผ๋ฌธ์์๋ ์์ง๋ ๋ฐ์ดํฐ์ ์์ Gorilla์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ฒค์น๋งํนํ๊ณ , ์๋ก ๋ค๋ฅธ ๊ฒ์ method๊ฐ API ํธ์ถ์ ๋ง๋๋๋ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ํ๊ตฌํ์๋ค.
Baselines. Gorilla์ ๋ค๋ฅธ SoTA ๋ชจ๋ธ๋ค์ zero-shot ์ธํ ์์ ๋น๊ตํ์๋ค: GPT-4, GPT-3.5-Turbo, Claude, LLaMA-7B.
Retrievers. zero-shot์ retriever์ด ์ฌ์ฉ๋์ง ์๋ ์๋๋ฆฌ์ค๋ฅผ ์ธ๊ธํ๋ค. ๊ทธ๋์ ๋ชจ๋ธ์ ๋ํ ์ ์ผํ input์ ์ฌ์ฉ์์ ์์ฐ์ด prompt์ด๋ค. retrieval ์ค์ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ๋ฅผ ์ฌ์ฉํด์ ์ธ๋ฑ์ค๋ฅผ ๊ฒ์ํ๊ณ , ๊ฐ์ฅ ์ฐ๊ด๋ API๋ฅผ ๊ฐ์ง๊ณ ์จ๋ค. ์ด API๋ LLM์๊ฒ ์ฟผ๋ฆฌ ํ๊ธฐ ์ํด ์ฌ์ฉ์์ prompt์ ํจ๊ป ์ฐ๊ฒฐ๋๋ค.
3-1. AST Accuracy on API call
๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ํ AST์ ์ ํ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ณผ๋ ํ 1์ ๋ํ๋ ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ retriever ์ธํ ์ ๋ํด ํ๊ฐํ์๋ค.
Finetuning without Retrieval. ํ 1์์๋ ์ฝํ๊ฒ fine-tune ๋ Gorilla๊ฐ zero-shot์์ SoTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ต์ํ ์ด ๋ฒ์์์๋ retrieval๋ณด๋ค fine-tuning์ด ๋ ๋ซ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๊ฒ๋ค๊ฐ, ground-truth retriever๋ ์ฑ๋ฅ์ ์ด์ง ๋จ์ด๋จ๋ ธ์ผ๋, BM25 ๋๋ GPT-Index๋ฅผ retriever๋ก ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ ์๋นํ ๋จ์ด์ก๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋น์ต์ retriever๋ฅผ test ์์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ชจ๋ธ์ ์๋ชป ์ง๋ํ๊ณ ๋ ๋ง์ ์๋ฌ๋ฅผ ๋ณ๋๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.

Finetuning with Retrieval. ๋ ผ๋ฌธ์์๋ retriever์ ํจ๊ป LM์ fine-tune ํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ์ด๋ค ๋์์ ์ฃผ๋์ง๋ฅผ ๋ ผ์ํ์๋ค. ์ด ์คํ์ ์ํด base LLaMA๋ฅผ prompt, ์ฐธ์กฐ API ๋ฌธ์, GPT-4์ ์ํด ์์ฑ๋ example๋ก fine-tune ํ์๋ค. ํ 2์์ fine-tuning pipeline์ ground-truth retriever๋ฅผ ํจ๊ป ์ฌ์ฉํ ๊ฒฐ๊ณผ, retriever์ด ์๋ ๊ฒ๋ณด๋ค ์๋นํ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง ํ๊ฐ ์์ ํ์ธํ ๊ฒฐ๊ณผ ํ์ฌ์ retriever๋ ground-truth retriever์ ํฐ ๊ฐญ์ ๊ฐ์ง๊ณ ์์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋ ๋์ retriever๋ก fine-tune ํ๋ ๊ฒ์ด ์์ง ๋ ๋์ method๋ผ๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์๋ค.


Hallucination with LLM. ๋ ผ๋ฌธ์์ ๊ด์ฐฐํ ํ ๊ฐ์ง ํ์์ API๋ฅผ ํธ์ถํ๊ธฐ ์ํด LLM๊ณผ ํจ๊ป zero-shot prompting์ ํ๋ฉด ์ฌ๊ฐํ hallucination์ ๋ณ๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค. ๋๋๊ฒ๋, ๋ ผ๋ฌธ์์๋ ๋ํ GPT-3.5๊ฐ GPT-4 ๋ณด๋ค ์ ์ hallucination์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด๊ฒ์ RLHF๊ฐ ๋ชจ๋ธ์ ์ง์คํ๊ฒ ๋ง๋๋๋ฐ ์ค์ฌ์ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์์ํ๋ค.
3-2. Test-time Documentation Change
๋น ๋ฅด๊ฒ ์งํํ๋ API ๋ฌธ์ํ์ ํ๊ฒฝ์ LLM์ ์ฌํ์ต ๋๋ fine-tuning ์ค์ผ์ค์ ์์ง๋ฌ ๊ฐ๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ์ ๋ฐ์ดํธ ๋น๋์ ๋ฏธ์ค๋งค์น๋ LLM์ ํ์ฉ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ์ค์ด๋ค๊ฒ ์ด๋ ์๋ ์๋ค. ํ์ง๋ง, Gorilla์ retriever-aware training์ ์๊ฐ๋ก, API ๋ฌธ์ํ์ ๋ณํ์ ์ฆ์ ์ ์ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ์๋ก์ด ๋ฐฉ์์ ๋ชจ๋ธ์ด ์ต์ ๋ฐ ์ ์ ํ๊ฒ ๋จธ๋ฌผ๋ฌ ์์ ์ ์๋๋ก ํ๋ฝํด ์ค๋ค.
์๋ฅผ ๋ค์ด ๊ทธ๋ฆผ 6์ ๋ฌ์ฌ๋ ์๋๋ฆฌ์ค๋ฅผ ์๊ฐํด ๋ณด๋ฉด, ์ฌ๊ธฐ์ Gorilla์ training์ API์ ๋ณํ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ํ๋๋ก ํ๋ฝํด ์ค๋ค. ์ด ๋ฅ๋ ฅ์ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ์์คํ ์ด ์ ๊ทธ๋ ์ด๋์ ๊ฐ์ ์ ๊ฒช์ด๋ LLM์ด ์ ์ ํ๊ณ ์ ํํ๋๋ก ๋ณด์ฅํด ์ค๋ค. ์ด๋ ์กฐ์ง์ด ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ํธํ๋ ๋ชจ๋ธ ๋ ์ง์คํธ๋ฆฌ๋ฅผ ๋ณ๊ฒฝํ ์ ์์ผ๋ฏ๋ก API ์์ค์ ๋ณํ์ ์ ์ํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฅ์ ๋ฐ์ํ๋ค.
์์ฝํ๋ฉด, API ๋ฌธ์ํ์ test-time ๋ณํ์ ์ ์ํ๊ธฐ ์ํ Gorilla์ ๋ฅ๋ ฅ์ ๋ค์ํ ์ด์ ์ ์ ๊ณตํด ์ฃผ๊ณ , ์๊ฐ์ด ์ง๋จ์๋ ์ ํ๋ & ์ฐ๊ด์ฑ์ ์ ์ง์์ผ ์ค๋ค. ๊ทธ๋ฆฌ๊ณ API ๋ฌธ์ ์ ๋ฐ์ดํธ์ ๋น ๋ฅธ ์๋์๋ ์ ์ํด์ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ์์คํ ์์์ ์์ ๋ ์กฐ์ ํ ์ ์๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ API ํธ์ถ์ ์ํ robust ํ๊ณ ์ ๋ขฐ๋ ์๋ tool๋ก ๋ง๋ค์ด ์ค๋ค.

3-3. API Call with Constraints
์ ์ฝ์ ์ดํดํ๋ LM์ ๋ฅ๋ ฅ์ ์ด์ ์ ๋ง์ถฐ์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 3๊ณผ ๊ฐ๋ค.

๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ์ ์ฝ์ด ์ถ๊ฐ๋๋ฉด, retriever์ด ์๋ ์๋ ๋ชจ๋ ๋ชจ๋ธ์ ๊ฑธ์ณ์ ์ ํ๋๋ ๋จ์ด์ง๋ค. Gorilla๋ retrieval์ ์ฌ์ฉํ ๋ GPT-3.5์ ๋ง๋จน๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ zero-shot์ ๊ฒฝ์ฐ์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ด๊ฒ์ ์๋ก ๋ค๋ฅธ ์ ์ฝ ๊ฐ์ trade-off๋ฅผ ๊ณ ๋ คํ๋ฉด์ API๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํ Gorilla์ ๋ฅ๋ ฅ์ ๊ฐ์กฐํ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.15334
Gorilla: Large Language Model Connected with Massive APIs
Large Language Models (LLMs) have seen an impressive wave of advances recently, with models now excelling in a variety of tasks, such as mathematical reasoning and program synthesis. However, their potential to effectively use tools via API calls remains u
arxiv.org