โ ์์ด์ ํธ ๋ง์ผํ๋ ์ด์ค
์คํ์์ค ํ๋ก์ ํธ
AgentBench
THUDM ์ ์
A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
์๋๋ฆฌ์ค:๐๋ฆฌ์์น ๋ฐ ๊ฒ์
๋ณ 3,495๊ฐ์
ํ ํธ์คํ
์คํฌ
์คํ์์ค ํ๋ก์ ํธ์ ๋๋ค โ ์ฝ๋๋ฅผ ์ดํด๋ณด๊ณ GitHub์์ ์ ํ ํธ์คํ ํ์ธ์.