[ICLR2024] Multi-granularity Correspondence Learning from Long-term Noisy Videos – Part 2
안녕하세요. 박성준 연구원입니다. 오늘은 ICLR2024에 게재된 Multi-granularity Correspondence Learning from Long-term Noisy Videos 논문의 Part2로 논문에서 제안하는 방법론과 실험결과에 대해서 리뷰하겠습니다. 아직 이전 리뷰를 보지…
[CVPR 2023] Turning a CLIP Model into a Scene Text Detector
안녕하세요, 마흔네 번째 X-Review입니다. 이번 논문은 2023년도 CVPR에 게재된 Turning a CLIP Model into a Scene Text Detector 논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…
[2021 CVPR] Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation
안녕하세요 이번에 소개할 논문은 SGG 논문으로 Long-tail 문제를 완화하기 위해 제안된 논문입니다. 구체적으로 기존의 SGG 모델은 의미적 모호성을 충분히 처리하지 못하고, 단일한 결정론적 관계만을 예측하려고…
[ECCV 2024] Is user feedback always informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data
올 초부터 (Online) Test-Time Adaptation(TTA) 분야의 논문들을 적지 않게 읽어왔습니다. 최근 TTA 논문들에서 핵심적으로 문제삼는 것들 중 하나는 long-term TTA 수행 속 마주하는 Catastrophic forgetting…
제 1회 AI Robot & Dining 행사 후기
1부 : Gen AI / LLM 시대에 개발자가 가져야 할 마음가짐 – 카카오 박준호 기술기획팀 파트리더 1. The Era of Generatvie AI / LLM 우리는…
제 1회 AI Robot & Dining 행사 후기
안녕하세요, 김영규 입니다. 9월 24일 참석했던 제 1회 AI Robot & Dining 행사 후기를 남깁니다. 행사는 총 1부와 2부로 나누어져 1부에는 카카오 기술기획 박준호 연구원님이…
[CVPR 2023] Detecting Everything in the Open World: Towards Universal Object Detection
안녕하세요. 지난 리뷰에서는 Universal Segmentation, Segmentation의 모든 Task 에 대한 연구를 소개 드렸다면, 이번 논문에서는 Detection 분야에서 “모든 환경에서, 모든 객체를 탐지하고자 하는” 연구를 소개…
[CoRL 2023 Oral] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
이번 논문은 LEFT-TOGO라는 논문으로 저희가 진행하고 있는 LLM 로봇 과제에서 지향하는 목표 중 하나를 구현한 논문에 해당합니다. 해당 논문은 VLM의 특징 정보를 가진 NeRF인 LERF를…
[CVPR 2024] Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time Adaptation
안녕하세요, 오랜만에 TTA 분야 논문 리뷰입니다.바로 시작하겠습니다. 1. Introduction source domain dataset에 대해 학습된 모델이 실상황에 deploy된 상황 속,학습때는 마주하지 못한 새로운 target domain 에…
[MM 2024] Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding
안녕하세요, 오늘의 X-Review에서는 24년도 ACM MM 학회에 게재된 논문 <Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding>을 소개해드리고자 합니다. 카이스트의 정준선…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…