[2024-동계][김영규] URP를 마치며
안녕하세요, 무인이동체공학과 4학년 재학중인 19학번 김영규 입니다. 저는 1학년, 2학년은 학교에 다니면서 아무것도 한 것이 없는 사람이었습니다. (말만 이렇게 하고 열심히 하는 사람들도 있지만 2점대…
[ICCV2023]UnLoc: A Unified Framework for Video Localization Tasks
안녕하세요 오늘은 또 다른 moment retrieval 논문입니다. trimmed video을 다루는 tasks에서는 CLIP과 같은 image-text 사전 학습 모델을 활용하는 연구가 많이 진행되고 있습니다. 하지만, untrimmed video를…
[ICCV 2021] MDETR – Modulated Detection for End-to-End Multi-Modal Understanding
안녕하세요. 논문 리비전 이후 몇몇 업무들을 마친 이후, 한숨을 돌리고 3월 석사의 시작과 동시에 관심 분야의 OWOD에 대한 이해를 위한 논문 읽기에 열을 올릴 예정입니다….
[PR-L 2023] Jigsaw-ViT: Learning jigsaw puzzles in vision transformer
안녕하세요, 허재연입니다. 오늘은 Representation Learning 논문을 들고 왔습니다. 사실 representation learning이라 함은 pretext task나 adversarial learning, contrastive learning 등 사전학습을 거쳐서 모델이 데이터에 대한 일반적인…
[3DV 2021] RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching
안녕하세요, 스물네 번째 X-Review입니다. 이번 논문은 2021년도 3DV에게재된 RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching 논문으로 Optical flow 방법론인 RAFT의 stereo matching 버전입니다. 그럼…
[ICLR 2020] Deep Batch active Learning by Diverse, Uncertain Gradient Lower Bounds
안녕하세요 정의철 연구원입니다. 제가 이번에 리뷰할 논문은 ‘ Deep Batch active Learning by Diverse, Uncertain Gradient Lower Bounds’입니다. 이 논문에서는 Batch active Learning에 대한 새로운…
KRoC 2024 참관 후기
안녕하세요, 이번 X-Diary는 KRoC 2024에 참관한 후기를 작성하고자 합니다. 학회는 지난 주 수요일부터 금요일까지 2박 3일로 진행되었는데, 저는 URP 최종 세미나로 인해 목요일 밤에 평창에…
[CoRL 2022] MegaPose: 6D PoseEstimation of Novel Objects via Render & Compare
안녕하세요, 이번에는 6D pose estimation의 방법론에 대한 논문입니다. Nvidia의 최근 연구 방향을 살펴보고자 알아보던 중에 내용이 흥미로워 읽게 되었습니다. 결국 large-scale의 데이터를 사용하여 novel object에…
[RA-L 2023]i2c-net: Using Instance-Level Neural Networks for Monocular Category-Level 6D Pose Estimation
안녕하세요. 제가 이번에 리뷰할 논문도 6D Pose Estimation 논문으로, instance-level의 6D를 category-Level로 확장하는 방법론입니다. 제가 주로 리뷰하고 실험하고 있는 방법론들은 주로 instance-level의 방식으로 정확도 측면에…
[ICCV 2023 oral] Scalable Diffusion Models with Transformers
[ Projet, Paper, Code ] 이번 논문 리뷰로 오랜만에 diffusion model을 들고 왔습니다. 기존 diffusion model들이 관행처럼 사용해오던 U-Net 구조의 backbone을 transformer로 나이브하게 변경한 논문입니다….
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…