Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2024] SAI3D: Segment Any Instance in 3D Scenes
안녕하세요, 서른 네번째 x-review 입니다. 이번 논문은 2024년도 CVPR에 게재된 SAI3D: Segment Any Instance in 3D Scenes 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction…
[IEEE]MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer
안녕하세요, 오늘 소개할 논문은 “MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer”입니다. 해당 논문은 처음으로 self-supervised monocular depth estimation이라는 테스크에 ‘Vision Transformer(ViT)의 Multihead self-attention(MHSA)을…
Protected: [MM 2024 (Under Review)] Enhancing …
There is no excerpt because this is a protected post.
[ECCV2022] Resolution Adaptive Self-Supervised Monocular Depth Estimation (RA-Depth)
안녕하세요 이재찬 연구원입니다. 이번 주에 다뤄 볼 논문도 역시 Self-supervised monocular depth estimation 분야의 논문입니다. “Resolution Adaptive Self-Supervised Monocular Depth Estimation” 일명 RA-Depth라고 불리는 방법론인데요,…
[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning
안녕하세요. 허재연입니다. 이번에는 object detection을 위한 self-supervised learning(SSL) 방법을 다룬 논문을 들고 왔습니다. NeurIPS 2021에서 spotlight를 받은 논문이며, Microsoft Research Asia 연구원들이 작성한 논문입니다. 기존의…
[CVPR 2024] LLM4SGG : Large Language Model for Weakly Supervised Scene Graph Generation
Before Review 안녕하세요 이번 리뷰도 Scene Graph Generation과 관련된 리뷰를 작성하였습니다. 이번 논문 같은 경우는 Weakly Supervised Learning 상황에서 기존 Scene Graph Generation 연구들의 문제점을…
[ECCV 2020] Feature-metric Loss for Self-supervised Learning of Depth and Egomotion(FeatDepth)
안녕하세요 이재찬 연구원입니다. 연구실 합류 후 미숙하지만 첫 리뷰를 쓰게 되었습니다. 현재는 신입교육과정으로 신정민, 권석준 연구원님의 지도 하에서 Self-supervised monocular depth estimation 분야에 대해 학습…
[ICASSP 2024] RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement
Introduction Speech communication system은 speech를 통해 발생하는 발화, 의사소통하는 것으로, 여러 가지 speech 관련 task에서 중요하게 다루어지고 있습니다. 그러나 speech를 마이크 센서를 통해 audio data로…
[CVPR 2024] From Pixels to Graphs : Open-Vocabulary Scene Graph Generation with Vision-Language Models
Introduction Scene Graph Generation (이하 SGG)은 이미지에 존재하는 객체와 객체들간의 관계를 예측하는 작업으로 High-level Scene Understanding 능력을 요구로 합니다. Scene Graph의 구성 요소는 크게 세…
[arXiv 2024] Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding
안녕하세요. 이번 X-Review에서 소개해드릴 논문은 제가 이전에 작성했던 리뷰 QD-DETR의 후속 연구 논문 CG-DETR입니다. QD-DETR과 동일한 성균관대 한국인 박사님의 연구이며, ECCV에 제출한 뒤 이제 리비전을…
안녕하세요 성준님. 좋은 리뷰 감사합니다. Definition 2.1에서 G와 G'을 정의하는 부분이 잘 이해가 가지 않아 질문드립니다. 제가 이해하기로 G는 backward…