[월:] 2025년 02월

Posted in X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…

Continue Reading
Posted in Conference X-Review

[CVPR Workshop 2024]What does CLIP know about peeling a banana?

제가 이번에 리뷰할 논문도 Affordance 관련 논문입니다. 자신들의 방법론을 AffordanceCLIP이라 하여 관심이 생겨 읽게 되었습니다. 코드는 따로 공개되어있지 않습니다. Abstract 사람은 도구를 어떻게 사용할지에 대해…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] SAM-Guided Masked Token Prediction for 3D Scene Understanding

안녕하세요, 53번째 x-review 입니다. 이번 논문은 24년도 NeurIPS에 게재된 SAM-Guided Masked Token Prediction for 3D Scene Understanding이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….

Continue Reading
Posted in X-Review

[CVPR 2024] DUSt3R: Geometric 3D Vision Made Easy

안녕하세요, 이번 주 X-review는 태주님과 과제 제안서 관련해서 이야기중 알게된 DUSt3R라는 네이버랩스의 논문을 리뷰해보도록 하겠습니다. 굉장히 신기한 기술이고, 평소에 지나가면서 접했지만 가볍게 넘어갔던 키워드들이 눈에…

Continue Reading
Posted in Paper X-Review

[ACL2024] Bayesian Prompt Ensembles: Model Uncertainty Estimation for Black-Box Large Language Models

오늘은 ACL 학회의 Finding 섹션에서 발표된 논문을 소개하겠습니다. Finding 섹션은 프로시딩 되지 않은 논문 중 아깝게 떨어진 논문을 의미한다고 하는데요, ACL 학회는 NLP 분야의 탑티어…

Continue Reading
Posted in X-Review

[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를…

Continue Reading
Posted in Paper X-Review

[COLM 2024] RAFT: Adapting Language Model to Domain Specific RAG

최근에 제안서 작업을 하면서 RAG를 팔로업 할 필요성을 느꼈는데요. 해당 논문은 이미 많이 인용된 논문일 뿐만 아니라 코드 또한 공개가 되어 있어 이 논문을 시작으로…

Continue Reading
Posted in Conference News Paper X-Review

[ICLR 2025] Real2Code: Reconstruct Articulated Objects via Code Generation

이번 리뷰 논문은 관절형(articulated) 객체를 이해하고 3차원 재구성을 코드 레벨로 구축이 가능한 기법을 제안한 논문입니다. open review인 ICLR에서 accept을 받은 것으로 확인됩니다. 최근 실제 세계의…

Continue Reading
Posted in Paper X-Review

[T-ITS 2024] MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2024년 12월 IEEE Transactions on Intelligent Transportation Systems에 게재된 논문입니다. DETR기반 multispectral detector이 아직 많지 않은 상황에서, DETR 구조를 기반으로…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting

안녕하세요, 쉰 번째 X-Review입니다. 이번 논문은 2025년도 ECCV에 게재된 WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting 논문입니다. 바로 시작하도록 하겠습니다. 🦹🏻…

Continue Reading