[카테고리:] Paper
Paper Review
[T-ITS 2024] MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2024년 12월 IEEE Transactions on Intelligent Transportation Systems에 게재된 논문입니다. DETR기반 multispectral detector이 아직 많지 않은 상황에서, DETR 구조를 기반으로…
[ECCV 2024] WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting
안녕하세요, 쉰 번째 X-Review입니다. 이번 논문은 2025년도 ECCV에 게재된 WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting 논문입니다. 바로 시작하도록 하겠습니다. 🦹🏻…
[2025 WACV] Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge
안녕하세요. 이번에 소개할 논문은 Scene Graph Generation 분야의 논문으로, 계층적 관계와 상식 검증 두 가지 방법을 통해 Scene Graph Generation의 성능을 높이고, 잘못된 예측을 줄이는…
[arXiv 2024] Segment Anything with Multiple Modalities
1. Introduction 여러 프롬프트를 사용하는 SAM은 대표적인 VFM으로서 genaralization 능력을 갖추었다고 평가받고 있습니다. 그러나 SAM은 billon 단위의 대규모 RGB 이미지 마스크만으로 학습되어 다른 비전 센서…
[CVPR 2024] Open-Vocabulary Video Anomaly Detection
안녕하세요, 오늘의 X-Review에서는 24년도 CVPR에 게재된 논문 <Open-Vocabulary Video Anomaly Detection>을 소개해드리겠습니다. 논문의 제목이 task의 이름이기에 이 task를 최초로 제안한 논문입니다. 저자가 제안하는 Open-Vocabulary Video…
[EMNLP 2024] Detecting Ambiguous Utterances in an Intelligent Assistant
안녕하세요. 최근에 모호한 명령어를 정확하게 수행하는 Task 관련하여 흥미가 생겨 해당 논문 분야로 새롭게 읽어봤습니다. EMNLP 논문으로, 모호한 발화를 잘 탐지하기 위해서 데이터셋 구축 및…
[2024 CVPR] The Neglected Tails in Vision-Language Models
안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…
[RA-L 2024]CLARA : Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents
안녕하세요. 이번에 새롭게 분야를 넓히게 되면서 Robot과 관련된 논문을 읽게 되었습니다. 최근에 Robot과 LLM이 잘 케미를 이루며 새로운 시너지를 내는 듯한 논문이 많은데, 해당 논문도…
[PMLR2023]Prediction-Oriented Bayesian Active Learning
오늘 리뷰할 논문은 이미지 분류 모델의 예측 성능 개선에 중점을 맞추어 모델 불확실성을 산출하고, 이를 통해 성능을 개선하는 능동 학습 (Active Learning)에 관련된 논문입니다. 특히…
[AAAI 2025] FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
이번 리뷰 논문은 3D Language Field 중 출판된 가장 최신 기법으로 실시간성과 성능 모두 SOTA를 달성한 기법에 해당합니다. 기존 기법들은 첫 시도들을 제안한 기법이라면 해다…
최신 댓글