Paper – Page 11 – Robotics and Computer Vision Lab

[WACV 2024] DTrOCR: Decoder-only Transformer for Optical Character Recognition

안녕하세요 text recognition 연구를 다룬 논문을 하나 가져와 리뷰하겠습니다. 지금까지 제가 본 트랜스포머를 활용한 text spotting, text detection, recognition 연구는 인코더-디코더 구조를 사용하였지만 해당 연구는…

Paper X-Review

[CVPR2023]Causalainer: Causal Explainer for Automatic Video Summarization

비디오 요약은 입력된 비디오에서 중요하다고 여겨지는 프레임을 선택하거나 중요도 순으로 점수를 매기는 과제입니다. 그러나 모델이 데이터에 대해 중요도하다고 평가하는 이유에 대해 분석할 방법이 없다는 것이…

Paper X-Review

[ECCV 2020] End-to-End Object Detection with Transformers

안녕하세요, 이번 X-Review 로 DETR 논문을 가져왔습니다. 저번 ViT 는 Image classification 을 목적으로 Transformer를 응용하였는데요, 이번 DETR은 Object Detection을 목적으로 Transformer 를 사용합니다. 다만…

Paper X-Review

[arXiv 2025] DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation

1. Introduction 상용 RGB-D 센서는 Lambertian 표면 아닌 물체(투명하거나 반사되는 재질을 의미)에서 노이즈가 발생하며 성능이 저하되는 한계가 있습니다. 그래서 RGB 이미지를 같이 활용하여 누락되는 depth를…

Paper X-Review

[arXiv 2024] Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts

안녕하세요, 예순 네번째 X-Review입니다. 이번 논문은 2024년도 arXiv에 올라온 Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts입니다. 바로 시작하도록…

Conference Paper X-Review

[CVPR 2024] Bridging the Gap Between End-to-End and Two-Step Text Spotting

안녕하세요 이번주에도 Text Spotting 논문을 가져와 리뷰해보겠습니다. 1. Introduction & Related Studies natural scene에서의 text를 인식하는 text spotting 태스크는 실제 세계에서 다양한 분야에 적용되기 때문에…

Paper X-Review

[ICLR 2021]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

안녕하세요 이번 X-Review로 ViT를 가져왔습니다.Transformer 구조를 이미지 쪽으로 가져오기 위한 많은 과정이 있었겠지만 약 4년만에 나온 논문으로 생각보다 오랜시간이 걸렸는데요. 해당 Transformer가 나왔을 당시의 GPU적…

Paper X-Review

[arXiv 2025] Perfecting Depth: Uncetrainty-Aware Enhancement of Metric Depth

안녕하세요, 69번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Perfecting Depth라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monoculdar depth estimation(MDE)는 아주 초기에는…

Paper X-Review

[CVPR2023]Align and Attend: Multimodal Summarization with Dual Contrastive Losses

오늘 소개드릴 논문은 multimodal summarization 논문입니다. 논문이 말하길 기존 연구의 경우 멀티모달의 동시성있는 정보를 잘 활용하지 못했고, 데이터 내제적인(본질적인) 정보의 활용이 부족했다고 합니다. 본 논문은…

Conference Paper X-Review

[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning

1. Introduction 컵퓨터 비전 분야에서는 사전학습 후 파인튜닝하는 방법으로 딥러닝 모델을 학습시키는 게 보편적으로 사용이 되어왔습니다. ImageNet과 같이 대량의 데이터셋으로 사전학습한 가중치를 불러와 실제 수행하고자…

Category: Paper

[WACV 2024] DTrOCR: Decoder-only Transformer for Optical Character Recognition

[CVPR2023]Causalainer: Causal Explainer for Automatic Video Summarization

[ECCV 2020] End-to-End Object Detection with Transformers

[arXiv 2025] DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation

[arXiv 2024] Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts

[CVPR 2024] Bridging the Gap Between End-to-End and Two-Step Text Spotting

[ICLR 2021]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

[arXiv 2025] Perfecting Depth: Uncetrainty-Aware Enhancement of Metric Depth

[CVPR2023]Align and Attend: Multimodal Summarization with Dual Contrastive Losses

[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning

Conference Deadline

NEW POST

New Comment