[CVPR 2019] Local Aggregation for Unsupervised Learning of Visual Embeddings
안녕하세요 정의철 연구원입니다. 이번에 제가 소개할 논문은 ‘Local Aggregation for Unsupervised Learning of Visual Embeddings’이란 논문입니다. 이 논문에서는 유사한 데이터 인스턴스를 임베딩 공간에서 함께 이동시키고,…
[CVPR 2024] SAI3D: Segment Any Instance in 3D Scenes
안녕하세요, 서른 네번째 x-review 입니다. 이번 논문은 2024년도 CVPR에 게재된 SAI3D: Segment Any Instance in 3D Scenes 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction…
[IEEE]MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer
안녕하세요, 오늘 소개할 논문은 “MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer”입니다. 해당 논문은 처음으로 self-supervised monocular depth estimation이라는 테스크에 ‘Vision Transformer(ViT)의 Multihead self-attention(MHSA)을…
Protected: [MM 2024 (Under Review)] Enhancing …
There is no excerpt because this is a protected post.
[ECCV2022] Resolution Adaptive Self-Supervised Monocular Depth Estimation (RA-Depth)
안녕하세요 이재찬 연구원입니다. 이번 주에 다뤄 볼 논문도 역시 Self-supervised monocular depth estimation 분야의 논문입니다. “Resolution Adaptive Self-Supervised Monocular Depth Estimation” 일명 RA-Depth라고 불리는 방법론인데요,…
[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning
안녕하세요. 허재연입니다. 이번에는 object detection을 위한 self-supervised learning(SSL) 방법을 다룬 논문을 들고 왔습니다. NeurIPS 2021에서 spotlight를 받은 논문이며, Microsoft Research Asia 연구원들이 작성한 논문입니다. 기존의…
[CVPR 2024] LLM4SGG : Large Language Model for Weakly Supervised Scene Graph Generation
Before Review 안녕하세요 이번 리뷰도 Scene Graph Generation과 관련된 리뷰를 작성하였습니다. 이번 논문 같은 경우는 Weakly Supervised Learning 상황에서 기존 Scene Graph Generation 연구들의 문제점을…
[ECCV 2020] Feature-metric Loss for Self-supervised Learning of Depth and Egomotion(FeatDepth)
안녕하세요 이재찬 연구원입니다. 연구실 합류 후 미숙하지만 첫 리뷰를 쓰게 되었습니다. 현재는 신입교육과정으로 신정민, 권석준 연구원님의 지도 하에서 Self-supervised monocular depth estimation 분야에 대해 학습…
[ICASSP 2024] RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement
Introduction Speech communication system은 speech를 통해 발생하는 발화, 의사소통하는 것으로, 여러 가지 speech 관련 task에서 중요하게 다루어지고 있습니다. 그러나 speech를 마이크 센서를 통해 audio data로…
[CVPR 2024] From Pixels to Graphs : Open-Vocabulary Scene Graph Generation with Vision-Language Models
Introduction Scene Graph Generation (이하 SGG)은 이미지에 존재하는 객체와 객체들간의 관계를 예측하는 작업으로 High-level Scene Understanding 능력을 요구로 합니다. Scene Graph의 구성 요소는 크게 세…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…