โ ์์ด์ ํธ ๋ง์ผํ๋ ์ด์ค
์คํ์์ค ํ๋ก์ ํธ
VibeSearchBench
VibeBench ์ ์
๐ The hardest search benchmark in the wild โ vague, multi-turn, proactive. 200 long-horizon tasks with persona-driven progressive disclosure, scored by verifiable schema-free knowledge-graph evaluation. No vibes, just triplet F1.
์๋๋ฆฌ์ค:๐๋ฆฌ์์น ๋ฐ ๊ฒ์
๋ณ 928๊ฐ์
ํ ํธ์คํ
์คํฌ
์คํ์์ค ํ๋ก์ ํธ์ ๋๋ค โ ์ฝ๋๋ฅผ ์ดํด๋ณด๊ณ GitHub์์ ์ ํ ํธ์คํ ํ์ธ์.