Category: Paper

Paper Review

Posted in Paper X-Review

[arXiv 2024] Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

현재 LLM은 Long-context 입력을 소화할 수 있는 수준으로 빠르게 발전하고 있습니다. 그러나 아직 완벽하지 않은데요, 비교적 짧은 입력만을 소화할 수 있던 기존의 LLM이 데이터베이스 외부의…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] Feature Aggregated Queries for Transformer-based Video Object Detectors

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Object Detection을 다룬 논문입니다. 지금 DETR 구조를 기반으로 하는 video scene graph generatino(VidSGG) 모델을 고도화 하고자 하는데, Scene Graph의…

Continue Reading
Posted in Paper X-Review

[CVPRW 2024]ToSA: Token Selective Attention for Efficient Vision Transformers

안녕하세요 이번 주도 지난 번에 이어서 토큰 푸르닝 관련 논문을 소개해드리려고 합니다. 생각보다 토큰 프루닝이라는 친구가 단순한듯 어렵게 느껴지는 친구 같습니다. 지 지난 주에 리뷰했던…

Continue Reading
Posted in Paper X-Review

[ICLR2024]CLIPSELF : VISION TRANSFORMER DISTILLS ITSELF FOR OPEN-VOCABULARY DENSE PREDICTION

안녕하세요. 이번 논문은 CLIPSELF 라는 논문입니다. CLIP 의 모델 설계구조상 가지지 못하는 locality를 self distill 방식으로 보완하였고, Object detection 뿐만 아니라 segmentation 까지 쓰일 수…

Continue Reading
Posted in Paper X-Review

[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning

안녕하세요. 이번 주 X-Review에서는 25년도 AAAI에 게재된 Audio-Visual Question Answering(AVQA) 관련 논문을 소개해드리겠습니다. 최근 Audio-Visual alignment learning 대한 여러가지 방법론 및 기타 아이디어를 얻어올 수…

Continue Reading
Posted in Paper X-Review

[arxiv 2025] Vision Language Models are Biased

Video를 위한 RAG를 구축하기 위해서는 VLM 모델 활용이 필수적입니다. 그러나 최근 몇 연구에서는 VLM이 데이터에 대한 이해능력에 대해 의혹을 제기하고 있는데요, 해당 논문을 통해 VLM에게…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation

안녕하세요, 76번째 x-review 입니다. 이번 논문은 2024년 11월 arXiv에 올라온 PriorDiffusion이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다  1. Introduction Monocular Depth Estimation(MDE)는 최근 diffusion 기반의…

Continue Reading
Posted in Paper X-Review

DINOv3

이번에 소개드릴 논문은 최근에 공개된 DINOv3 입니다. DINOv2가 CV에서 엄청난 파급력이 있음은 잘 알려져있지만 그렇다고 이번에 새로 나온 DINOv3 논문 제목이 추가적인 부연 설명이나 내용…

Continue Reading
Posted in Paper X-Review

[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System

안녕하세요, 오늘 소개드릴 논문은 비디오 modality를 위한 RAG 프레임워크를 제안한 논문입니다. RAG의 기본적인 동작 도메인인 텍스트 도메인보다 데이터 용량이 큰 비디오 도메인을 다루는 만큼, 효율성을…

Continue Reading
Posted in Paper X-Review

[IEEE 2024 IJCNN]Image Caption Method from Coarse to Fine Based On Dual Encoder-Decoder Framework

안녕하세요 이번 리뷰는 fine grained 레벨의 이미지 캡션 생성 논문입니다. 최근 GPT 계열의 foundation 모델을 통해 fine grained 캡션 생성도 가능해졌지만, 이 논문은 별도의 foundation…

Continue Reading