โ ์์ด์ ํธ ๋ง์ผํ๋ ์ด์ค
์คํ์์ค ํ๋ก์ ํธ
groundingLMM
mbzuai-oryx ์ ์
[CVPR 2024 ๐ฅ] Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.
๋ณ 959๊ฐ์
ํ ํธ์คํ
์คํฌ
์คํ์์ค ํ๋ก์ ํธ์ ๋๋ค โ ์ฝ๋๋ฅผ ์ดํด๋ณด๊ณ GitHub์์ ์ ํ ํธ์คํ ํ์ธ์.