The overview of this paper
LLM์ ์ต๊ทผ์ ์์ฒญ ๋ฐ์ ํ์ผ๋, ์ด๋ค์ API ํธ์ถ์ ํตํ ํจ๊ณผ์ ์ธ ํด ์ฌ์ฉ์ ๋ํ ์ ์ฌ์ฑ์ ๋ง์กฑ๋์ง ์์ ์ฑ ๋จ์์๋ค. ์ด ๋ ผ๋ฌธ์์๋ API ํธ์ถ ์์ฑ์์ GPT-4์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ fine-tuned LLaMA-based model์ธ Gorilla๐ฆ๋ฅผ ์๊ฐํ์๋ค. Gorilla๋ document retriever์ ํจ๊ป ์ฌ์ฉ๋ ๋, test-time ๋ฌธ์ ๋ณํ์ ์ ์ํ๊ธฐ ์ํ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ์ ์ฐํ ์ฌ์ฉ์ ์ ๋ฐ์ดํธ ๋๋ ๋ฒ์ ๋ณํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ์๋ค. ์ด๊ฒ์ LLM์ direct ํ๊ฒ prompting ํ ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ง๋ฅ๋จ๋ฆฌ๋ hallucination์ ๋ฌธ์ ์ ์ ์๋นํ ์ํํ์๋ค. ๋ํ ๋ ผ๋ฌธ์์๋ Gorilla์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ง๋ค์ด์ง HugguingFace, TorchHub, TensorHub API๋ฅผ ํฌํจํ๋ ๋ฐ์ดํฐ์ ์ธ API Bench๋ ์ ์ํ์๋ค.
Table of Contents
1. Introduction
2. Methodology
3. Evaluation
1. Introduction
๋ ผ๋ฌธ์์๋ API์ API ๋ฌธ์๋ฅผ ์ฌ์ฉํด์ ํฌ๊ณ , ovelapping ํ๊ณ , ๋ณํํ๋ tool set๋ก๋ถํฐ LLM์ด ์ ํํ๊ฒ API๋ฅผ ์ ํํ๋๋ก ํด์ฃผ๊ธฐ ์ํด Self-Instruct fine-tuning๊ณผ retrieval์ ์ฌ์ฉ์ ํ๊ตฌํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ๊ณ ์ข ์ข overlapping ๊ธฐ๋ฅ์ ๊ฐ์ง๋ API์ ๊ฑฐ๋ corpus์ธ API Bench๋ ๋ง๋ค์๋ค. ๋ํ Self-Instruct๋ฅผ ์ฌ์ฉํด์ API ๋น 10๊ฐ์ ์ฌ์ฉ์ question prompt๋ฅผ ์์ฑํ์๋ค. ๋ฐ๋ผ์ ๋ฐ์ดํฐ์ ์์ ๊ฐ entry๋ instruction ์ฐธ์กฐ API ์์ด ๋๋ค. ์์ฑ๋ API์ ์ ํ๋๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ผ๋ฐ์ ์ธ AST sub-tree ๋งค์นญ ๊ธฐ์ ์ ์ฑํํ์๋ค. ๋ ผ๋ฌธ์์๋ LLM์ ๋ํ functional ์ ํ๋์ hallucination ๋ฌธ์ ๋ฅผ ํด๋น ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉด์ ํ์ธํ์๋ค.
๊ทธ๋ค์์ ๋ ผ๋ฌธ์์๋ LLaMA-7B-based model์ API Bench ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ document retrieval๊ณผ ํจ๊ป fine-tune ํด์ Gorilla๋ฅผ ์ป์๋ค. Gorilla๋ API ๊ธฐ๋ฅ ์ ํ๋ ๋ฟ๋ง ์๋๋ผ hallucination ์ค๋ฅ๋ฅผ ์ค์ด๋ ์ธก๋ฉด์์ GPT-4๋ฅผ ์๋นํ ๋ฅ๊ฐํ์๋ค. ๊ทธ๋ฆผ 1์ ์์ output์ ๋ณด์ฌ์ค๋ค. ์ถ๊ฐ์ ์ผ๋ก Gorilla์ retrieval-aware training์ ๋ชจ๋ธ์ด API ๋ฌธ์ ๋ณํ์ ์ ์ํ ์ ์๊ฒ ํด ์ฃผ์๋ค.
2. Methodology
2-1. Dataset Collection
๋ฐ์ดํฐ์ ์์ง์ ์ํด HuggingFace์ 'The Model Hub', PyTorchHub, TensorFlowHub Model์ ๋ํ ๋ชจ๋ online model card๋ฅผ ๊ผผ๊ผผํ ๊ธฐ๋กํ์๋ค.
API Documentation. HuggingFace Hub, TensorFlow Hub, Torch Hub๋ก๋ถํฐ ์ป์ 1,645๊ฐ์ API ํธ์ถ์ ๋ํด ๋ชจ๋ธ ์นด๋๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํ์๋ค: {domain, framework, functionality, api_name, api_call, api_arguments, environment_requirements, example_code, performance, and description.}. ์ด๋ฌํ ํ๋๋ ML ๋๋ฉ์ธ ๋ด์ API ํธ์ถ์ ๋์ด RESTful API๋ฅผ ํฌํจํ์ฌ ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก ์ผ๋ฐํํ๊ธฐ ์ํด ์ ํํ๋ค.
Instruction Generation. ์ธ์กฐ instruction data๋ฅผ ์์ฑํ๊ธฐ ์ํด GPT-4๋ฅผ ์ฌ์ฉํ์ฌ Self-Instruct๋ฅผ ์งํํ์๋ค. ๋ ผ๋ฌธ์์๋ 3๊ฐ์ in-context example์ ์ฐธ์กฐ API ๋ฌธ์์ ํจ๊ป ์ ๊ณตํ๊ณ , ๋ชจ๋ธ์๊ฒ API๋ฅผ ๋ถ๋ฌ์ค๋ real-world ์ฌ์ฉ ์ผ์ด์ค๋ฅผ ์์ฑํ๋๋ก task๋ฅผ ์ํจ๋ค. 1,645๊ฐ์ API datapoint์ ๊ฐ๊ฐ์ ๋ํด ์ด 10๊ฐ์ instruction-API ์์ ์์ฑํ๊ธฐ ์ํด 6๊ฐ์ ํด๋น instruction example ์ค 3๊ฐ๋ฅผ ์ํ๋งํ์๋ค.
2-2. Gorilla
๊ตฌ์ฒด์ ์ผ๋ก API ํธ์ถ์ ๋ํด retrieve-aware ํ๊ฒ fine-tune ๋ LLaMA-7B model์ด Gorilla์ด๋ค. ๊ทธ๋ฆผ 3์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, {instruction, API} ์์ ์์ฑํ๊ธฐ ์ํด Self-Instruct๋ฅผ ์ฌ์ฉํ์๋ค. LLaMA๋ฅผ fine-tune ํ๊ธฐ ์ํด ์ด๊ฒ์ user-agent chat-style ๋ํ๋ก ๋ณ๊ฒฝํ์๋ค. ์ฌ๊ธฐ์ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ์ฌ์ฉ์์ ์์ด์ ํธ์ ๋ํด ๊ฐ๊ฐ ํ ๋ผ์ด๋์ ๋ํ์ด๋ค. ๊ทธ๋ค์์, ํ์ค instruction fine-tuning์ base LLaMA-7B model์ ๋ํด ์ํํ์๋ค. ์คํ์ ์ํด ๋ ผ๋ฌธ์์๋ retriever๋ฅผ ์ฌ์ฉํ๊ณ ์ฌ์ฉํ์ง ์๋ Gorilla๋ฅผ ํ์ต์์ผฐ๋ค.
API Call with Contraints. API ํธ์ถ์ ์ข ์ข ๋ด์ฌ์ ์ ์ฝ๊ณผ ํจ๊ป ์ค๊ฒ ๋๋ค. ์ด๋ฌํ ์ ์ฝ์ LLM์ด API์ ๊ธฐ๋ฅ์ ์ดํดํ ๋ฟ๋ง ์๋๋ผ ์๋ก ๋ค๋ฅธ ์ ์ฝ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ํธ์ถ์ ์นดํ ๊ณ ๋ฆฌํํ๋ค. LLM์ ์ฌ์ฉ์์ ํจ์์ ์ค๋ช ์ ์ดํดํ ์ ์์ด์ผ ํ ๋ฟ๋ง ์๋๋ผ, ์์ฒญ ์์ ์๋ฒ ๋ฉ๋์ด ์๋ ๋ค์ํ ์ ์ฝ์ ์ถ๋ก ํด์ผ ํ ํ์๊ฐ ์๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ทธ์ API ํธ์ถ์ ๊ธฐ๋ณธ์ ๊ธฐ๋ฅ์ ์ดํดํ๋ ๊ฒ์ ์ถฉ๋ถํ์ง ์๊ณ , ์ด๋ฌํ ํธ์ถ์ ๋๋ฐํ ์ ์ฝ์ ๋ณต์กํ ํ๊ฒฝ์ ๋ค๋ฃฐ ์ ์๋ ๋ฅ๋ ฅ๋ ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ค. ์ด๋ฌํ ๊ด์ฐฐ์ API์ ๋ํด LLM์ ํ์์ ์ผ๋ก fine-tune ํด์ผ ํ ํ์๊ฐ ์์ด์ง์ ๋ณด์ฌ์ค๋ค.
Retriever-Aware training. retriever์ ํจ๊ป ํ์ต์ ํ๊ธฐ ์ํด instruction-tuned ๋ฐ์ดํฐ์ ์ user prompt์ ์ถ๊ฐ์ ์ธ "Use this API documentation for reference: <retrieved_API_doc_JSON>"์ ์ถ๊ฐํ๋ค. ์ด๋ฅผ ํตํด ๋ ผ๋ฌธ์์๋ LLM์ด ์ด๋ฐ๋ถ ์ง๋ฌธ์ ์๋ตํ๊ธฐ ์ํด ์ง๋ฌธ์ ํ๋ฐ๋ถ๋ฅผ ๋ถ์ํ๊ธฐ ์ํด ๊ฐ๋ฅด์น๋ ๊ฒ์ ๋ชฉํ๋ก ์ผ์๋ค. ์ด๊ฒ์ ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ค๋ค.
- test-time ๋ณํ์ ์ ์ํ๊ฒ ๋ง๋ค์ด์ค
- In-Context Learning์ผ๋ก๋ถํฐ ์ฑ๋ฅ์ ๊ฐ์ ์ํด
- Hallucination error๋ฅผ ์ค์
Gorilla Inference. Gorilla์ ์ถ๋ก ์ ์ํ prompt๋ 2๊ฐ์ ๋ชจ๋๋ฅผ ๊ฐ์ง๋ค: zero-shot & with retrieval.
- zero-shot setting: ์ด prompt๋ Gorilla LLM์ ๋ค์ด๊ฐ๊ฒ ๋๊ณ , ๊ทธ๋ค์์ task์ ๋ชฉํ๋ฅผ ์ฑ์ทจํ๋๋ฐ ๋์์ ์ฃผ๋ API ํธ์ถ์ ๋ฐํํจ
- with retrieval: retriever๋ API ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฅ๋์ด ์๋ ๊ฐ์ฅ ์ต์ ์ ํ์ API ๋ฌธ์๋ฅผ ๊ฒ์ํจ. ๊ทธ ๋ค์์ ์ฌ์ฉ์ prompt์ ์ฐ๊ฒฐ๋จ.
2-3. Verifying APIs
Gorilla์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ์ด๋ค์ ๊ธฐ๋ฅ์ ๋๋ฑํจ์ ๋น๊ตํ์๋ค. ๋ฐ์ดํฐ์ ์ ์ด๋ค API๊ฐ LLM ํธ์ถ์ธ์ง ์ถ์ ํ๊ธฐ ์ํด AST ํธ๋ฆฌ ๋งค์นญ ์ ๋ต์ ์ฑํํ์๋ค. ์ด๋ ํ๋ณด API๊ฐ ์ฐธ์กฐ API์ sub-tree๋ฉด ์ด๊ฒ์ API๊ฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ๋๋ค๋ ๊ฒ์ด๋ค.
hallucination์ ์ ์ํ๊ธฐ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ AST ํธ๋ฆฌ ๋งค์นญ์ ์ฌ์ฉํด์ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ hallucination์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ด๋ค API์ sub-tree๋ ์๋ API ํธ์ถ๋ก ์ ์๋๋ค๊ณ ํ์๋ค. ์ด๊ฒ์ ์์ ํ ์์์ผ๋ก ๋ง๋ค์ด๋ธ ํด์ hallucination์ผ๋ก ๊ณ ๋ คํ๋ค๋ ๊ฒ์ด๋ค.
AST Sub-Tree Matching. ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์์ ์ด๋ค API๊ฐ LLM ํธ์ถ์ธ์ง๋ฅผ ํ๋ณํ๊ธฐ ์ํด AST sub-tree matching์ ์ํํ์๋ค.
3. Evaluation
๋ ผ๋ฌธ์์๋ ์์ง๋ ๋ฐ์ดํฐ์ ์์ Gorilla์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ฒค์น๋งํนํ๊ณ , ์๋ก ๋ค๋ฅธ ๊ฒ์ method๊ฐ API ํธ์ถ์ ๋ง๋๋๋ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ํ๊ตฌํ์๋ค.
Baselines. Gorilla์ ๋ค๋ฅธ SoTA ๋ชจ๋ธ๋ค์ zero-shot ์ธํ ์์ ๋น๊ตํ์๋ค: GPT-4, GPT-3.5-Turbo, Claude, LLaMA-7B.
Retrievers. zero-shot์ retriever์ด ์ฌ์ฉ๋์ง ์๋ ์๋๋ฆฌ์ค๋ฅผ ์ธ๊ธํ๋ค. ๊ทธ๋์ ๋ชจ๋ธ์ ๋ํ ์ ์ผํ input์ ์ฌ์ฉ์์ ์์ฐ์ด prompt์ด๋ค. retrieval ์ค์ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ๋ฅผ ์ฌ์ฉํด์ ์ธ๋ฑ์ค๋ฅผ ๊ฒ์ํ๊ณ , ๊ฐ์ฅ ์ฐ๊ด๋ API๋ฅผ ๊ฐ์ง๊ณ ์จ๋ค. ์ด API๋ LLM์๊ฒ ์ฟผ๋ฆฌ ํ๊ธฐ ์ํด ์ฌ์ฉ์์ prompt์ ํจ๊ป ์ฐ๊ฒฐ๋๋ค.
3-1. AST Accuracy on API call
๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ํ AST์ ์ ํ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ณผ๋ ํ 1์ ๋ํ๋ ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ retriever ์ธํ ์ ๋ํด ํ๊ฐํ์๋ค.
Finetuning without Retrieval. ํ 1์์๋ ์ฝํ๊ฒ fine-tune ๋ Gorilla๊ฐ zero-shot์์ SoTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ต์ํ ์ด ๋ฒ์์์๋ retrieval๋ณด๋ค fine-tuning์ด ๋ ๋ซ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๊ฒ๋ค๊ฐ, ground-truth retriever๋ ์ฑ๋ฅ์ ์ด์ง ๋จ์ด๋จ๋ ธ์ผ๋, BM25 ๋๋ GPT-Index๋ฅผ retriever๋ก ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ ์๋นํ ๋จ์ด์ก๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋น์ต์ retriever๋ฅผ test ์์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ชจ๋ธ์ ์๋ชป ์ง๋ํ๊ณ ๋ ๋ง์ ์๋ฌ๋ฅผ ๋ณ๋๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
Finetuning with Retrieval. ๋ ผ๋ฌธ์์๋ retriever์ ํจ๊ป LM์ fine-tune ํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ์ด๋ค ๋์์ ์ฃผ๋์ง๋ฅผ ๋ ผ์ํ์๋ค. ์ด ์คํ์ ์ํด base LLaMA๋ฅผ prompt, ์ฐธ์กฐ API ๋ฌธ์, GPT-4์ ์ํด ์์ฑ๋ example๋ก fine-tune ํ์๋ค. ํ 2์์ fine-tuning pipeline์ ground-truth retriever๋ฅผ ํจ๊ป ์ฌ์ฉํ ๊ฒฐ๊ณผ, retriever์ด ์๋ ๊ฒ๋ณด๋ค ์๋นํ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง ํ๊ฐ ์์ ํ์ธํ ๊ฒฐ๊ณผ ํ์ฌ์ retriever๋ ground-truth retriever์ ํฐ ๊ฐญ์ ๊ฐ์ง๊ณ ์์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋ ๋์ retriever๋ก fine-tune ํ๋ ๊ฒ์ด ์์ง ๋ ๋์ method๋ผ๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์๋ค.
Hallucination with LLM. ๋ ผ๋ฌธ์์ ๊ด์ฐฐํ ํ ๊ฐ์ง ํ์์ API๋ฅผ ํธ์ถํ๊ธฐ ์ํด LLM๊ณผ ํจ๊ป zero-shot prompting์ ํ๋ฉด ์ฌ๊ฐํ hallucination์ ๋ณ๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค. ๋๋๊ฒ๋, ๋ ผ๋ฌธ์์๋ ๋ํ GPT-3.5๊ฐ GPT-4 ๋ณด๋ค ์ ์ hallucination์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด๊ฒ์ RLHF๊ฐ ๋ชจ๋ธ์ ์ง์คํ๊ฒ ๋ง๋๋๋ฐ ์ค์ฌ์ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์์ํ๋ค.
3-2. Test-time Documentation Change
๋น ๋ฅด๊ฒ ์งํํ๋ API ๋ฌธ์ํ์ ํ๊ฒฝ์ LLM์ ์ฌํ์ต ๋๋ fine-tuning ์ค์ผ์ค์ ์์ง๋ฌ ๊ฐ๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ์ ๋ฐ์ดํธ ๋น๋์ ๋ฏธ์ค๋งค์น๋ LLM์ ํ์ฉ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ์ค์ด๋ค๊ฒ ์ด๋ ์๋ ์๋ค. ํ์ง๋ง, Gorilla์ retriever-aware training์ ์๊ฐ๋ก, API ๋ฌธ์ํ์ ๋ณํ์ ์ฆ์ ์ ์ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ์๋ก์ด ๋ฐฉ์์ ๋ชจ๋ธ์ด ์ต์ ๋ฐ ์ ์ ํ๊ฒ ๋จธ๋ฌผ๋ฌ ์์ ์ ์๋๋ก ํ๋ฝํด ์ค๋ค.
์๋ฅผ ๋ค์ด ๊ทธ๋ฆผ 6์ ๋ฌ์ฌ๋ ์๋๋ฆฌ์ค๋ฅผ ์๊ฐํด ๋ณด๋ฉด, ์ฌ๊ธฐ์ Gorilla์ training์ API์ ๋ณํ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ํ๋๋ก ํ๋ฝํด ์ค๋ค. ์ด ๋ฅ๋ ฅ์ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ์์คํ ์ด ์ ๊ทธ๋ ์ด๋์ ๊ฐ์ ์ ๊ฒช์ด๋ LLM์ด ์ ์ ํ๊ณ ์ ํํ๋๋ก ๋ณด์ฅํด ์ค๋ค. ์ด๋ ์กฐ์ง์ด ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ํธํ๋ ๋ชจ๋ธ ๋ ์ง์คํธ๋ฆฌ๋ฅผ ๋ณ๊ฒฝํ ์ ์์ผ๋ฏ๋ก API ์์ค์ ๋ณํ์ ์ ์ํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฅ์ ๋ฐ์ํ๋ค.
์์ฝํ๋ฉด, API ๋ฌธ์ํ์ test-time ๋ณํ์ ์ ์ํ๊ธฐ ์ํ Gorilla์ ๋ฅ๋ ฅ์ ๋ค์ํ ์ด์ ์ ์ ๊ณตํด ์ฃผ๊ณ , ์๊ฐ์ด ์ง๋จ์๋ ์ ํ๋ & ์ฐ๊ด์ฑ์ ์ ์ง์์ผ ์ค๋ค. ๊ทธ๋ฆฌ๊ณ API ๋ฌธ์ ์ ๋ฐ์ดํธ์ ๋น ๋ฅธ ์๋์๋ ์ ์ํด์ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ์์คํ ์์์ ์์ ๋ ์กฐ์ ํ ์ ์๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ API ํธ์ถ์ ์ํ robust ํ๊ณ ์ ๋ขฐ๋ ์๋ tool๋ก ๋ง๋ค์ด ์ค๋ค.
3-3. API Call with Constraints
์ ์ฝ์ ์ดํดํ๋ LM์ ๋ฅ๋ ฅ์ ์ด์ ์ ๋ง์ถฐ์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 3๊ณผ ๊ฐ๋ค.
๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ์ ์ฝ์ด ์ถ๊ฐ๋๋ฉด, retriever์ด ์๋ ์๋ ๋ชจ๋ ๋ชจ๋ธ์ ๊ฑธ์ณ์ ์ ํ๋๋ ๋จ์ด์ง๋ค. Gorilla๋ retrieval์ ์ฌ์ฉํ ๋ GPT-3.5์ ๋ง๋จน๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ zero-shot์ ๊ฒฝ์ฐ์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ด๊ฒ์ ์๋ก ๋ค๋ฅธ ์ ์ฝ ๊ฐ์ trade-off๋ฅผ ๊ณ ๋ คํ๋ฉด์ API๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํ Gorilla์ ๋ฅ๋ ฅ์ ๊ฐ์กฐํ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.15334