Author: 류 지연
[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention
안녕하세요 류지연입니다. 이번에도 Scene text recognition을 다루는 논문을 리뷰해보겠습니다. 지난주에 DiG를 리뷰했었는데요 사전학습된 인코더에 이 논문의 디코더를 붙여 파인튜닝을 해 recognition을 수행하더군요. TESTR에서의 recognition 방법과…
[ACM 2022] Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition
안녕하세요 류지연입니다. TESTR과 DPText-DETR에 이어서 텍스트 인식 task에 집중하며 논문을 읽고 교육받고 있습니다. 당분간은 이 주제의 논문들을 읽고 리뷰를 작성할 듯 싶습니다. 이번에는 Text Recognition만을…
[AAAI 2023] DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer
안녕하세요 류지연입니다. TESTR 논문 리뷰에 이어서 TESTR의 검출 성능을 개선한 DPText-DETR 논문에 대해 리뷰 진행해보도록 하겠습니다. 1. Introduction Text spotting은 OCR(문자 인식) task 중 하나로…
[ECCV 2020] End-to-End Object Detection with Transformers
안녕하세요 류지연입니다. 오늘 리뷰할 논문은 이전에 작성했던 TESTR 모델의 근간이 되는 DETR입니다. TESTR을 읽을 때 DETR에 대해서 알고자 간단하게 블로그만을 참고했었는데요 깊게 알고자 논문을 읽고…
[CVPR 2022] Text Spotting Transformers
안녕하세요 류지연입니다.저는 이번주부터 Text Spotting이란 새로운 task에 대한 논문을 보고 있습니다. Text Spotting은 이미지 속 단어들의 위치를 찾고 각 단어를 인식하는 task를 말합니다. 자율주행 환경에서…
[CVPR 2013] All about VLAD
안녕하세요 류지연입니다. 한주 간 VLAD로 이미지 분류 성능을 개선시키는 것을 진행했습니다. 본 연구에서 제안하는 방법론을 적용했습니다. 한주를 마무리하며 연구에서 제안하는 방법론들에 대해 정리하고자 해당 논문으로…
[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining
안녕하세요 류지연입니다. 오늘 리뷰하려고 가져온 논문은 RegionCLIP입니다. 랩세미나에서 늘 CLIP이 언급돼서 늘 궁금했었는데요 동기 연구원의 기초교육 일정에 RegionCLIP 논문을 읽는 게 있어서 CLIP연구와 함께 기본이…
[WACV 2022] Occlusion-Robust Object Pose Estimation with Holistic Representation
안녕하세요 류지연입니다. 이번에도 6D 자세 추정에 대한 논문으로 가져왔습니다. 앞서 리뷰했던 PVNet, PVN3D, FFB6D 논문에서의 연구방향과 흐름을 살펴보았을 때 자세추정을 위해 키포인트를 검출할 때 Depth…
[CVPR 2021] FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
안녕하세요 PVNet, PVN3D에 이어서 FFB6D 논문으로 찾아왔습니다. 세 논문 모두 6자유도를 갖는 3차원 물체의 자세를 추정하기 위한 방법을 다룬 논문들입니다. 6자유도를 갖는 3차원 물체의 자세를…
[CVPR 2020] PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
안녕하세요 류지연입니다. 계속해서 6 DoF (Degree of Freedom) Pose Estimation 관련된 논문을 보고 있습니다. 오늘은 PVNet (PVNet리뷰) 에 이어서 두번째로 PVN3D 논문을 가져왔습니다. 그럼 바로…
안녕하세요 인하님, 첫 댓글 환영합니다. 1. 기존에도 VLM의 reasoning 능력을 활용해서 high-level planning을 수행하고, 여기서의 어떤 bridge가 되는 정보를 low-level…