Posted in X-Diary

2025 상반기 회고

안녕하세요. 올해 상반기가 지나감에 따라 회고록을 작성하고자 합니다. 지난주 주말에 작성했어야 했지만, 부득이하게,,, 조금 늦어졌습니다. 올해 1월부터 무슨 일이 있었나, 하고 슬랙으로 1월 1일을 타고…

Continue Reading
Posted in X-Review

[arxiv 2025] LBAP: Improved Uncertainty Alignment of LLM Planners using Bayesian Inference

안녕하세요. 이번 리뷰도 LLM의 hallucination 현상을 완화하기 위한 방법으로 uncertainty 추정 관련 논문을 들고왔습니다. 제목을 보시면 bayesian inference란 내용이 나오는데요. 그동안 제가 리뷰해왔던 uncertainty 추정…

Continue Reading
Posted in Conference Paper X-Review

[ICCV 2025] SVTRv2: CTCBeats Encoder-Decoder Models in Scene Text Recognition

안녕하세요 2025년 ICCV에 accept된 Scene Text Recognition (STR) 논문 중 한 편인 SVTRv2을 가져왔습니다. 기존에 많이 사용됐던 CTC 기반의 방법론에 모듈을 추가해 트랜스포머 기반의 text…

Continue Reading
Posted in Paper X-Review

[2024 ACL] RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval(TVR) 모델에 Parameter-Efficient Transfer Learning(PEFT) 기법을 적용시킨 논문입니다. TVR 태스크는 기본적으로 Text와 Vision의 매칭을 기반으로 수행되기 때문에 CLIP가 같은 모델을…

Continue Reading
Posted in X-Review

[CVPR 2025]UA-Pose : Uncertainty-Aware 6D Object pose Estimation and Online Object Completion with partial References

안녕하세요 6번째 X-review 입니다. 이번에도 6D 쪽 논문을 가져왔습니다. 이번 논문 2025년 CVPR에 accept된 UA-Pose 입니다.그럼 리뷰 바로 시작하도록 하겠습니다. 최근 6D pose estiamtion 연구에서는…

Continue Reading
Posted in Paper X-Review

[ICLR 2025] MMAD: A COMPREHENSIVE BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS IN INDUSTRIAL ANOMALY DETECTION

안녕하세요, 예순 여덟번째 X-Review입니다. 이번 논문은 2025년도 ICLR에 올라온 MMAD: A COMPREHENSIVE BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS IN INDUSTRIAL ANOMALY DETECTION 입니다. 바로 시작하도록…

Continue Reading
Posted in X-Review

[CVPR 2024] Can I Trust Your Answer? Visually Grounded Video Question Answering

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Video Question Answering (VideoQA) 연구입니다. VideoQA 모델이 생성하는 답변이 시각적 정보에 얼마나 근거하고 있는 지를 Video Grounding을 통해 평가하고…

Continue Reading
Posted in Conference X-Review

[CVPRw 2024] Strategies to Leverage Foundation Model Knowledge in Object Affordance Grounding

최근 미학습 물체 파지 과제를 위해 속성 정보를 이용하여 미학습 물체를 찾는 연구를 하고있었는데, 개인연구로 진행하던 affordance grounding에도 이러한 속성 정보를 활용한 연구가 나와 리뷰하게…

Continue Reading
Posted in Conference Paper X-Review

[ICLR 2025] Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

안녕하세요, 허재연입니다. 지난 주에 이어서 Video SGG논문을 가져왔습니다. SGG쪽 연구를 꾸준히 하시던 저자들이 ICLR2025에 게재한 논문이고, LLM 기반의 Weakly Supervised Learning 기법을 제안한 논문이라 읽어보았습니다….

Continue Reading
Posted in Paper

[CVPR 2023]Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

안녕하세요. 이번에 제가 이번에 리뷰할 논문은 Mask DINO라는 논문입니다. 상반기 회고에서도 잠깐 언급했듯이, 현재는 단순하게 말씀드리면 하나의 모델로 depth estimation과 object detection을 동시에 수행할 수…

Continue Reading