Author: 천 혜원

Posted in X-Review

[ICLR2021] Pix2seq: A Language Modeling Framework for Object Detection

Introduction 본격적으로 리뷰를 시작하기 전에, 해당 논문에서 다루는 task인 object detection에 대해 정리하고 가겠습니다. object detection은 주어진 이미지에서 사전에 정의된 category에 속하는 object를 찾는 것이며,…

Continue Reading
Posted in X-Review

[CVPR 2017] Image-to-Image Translation with Conditional Adversarial Networks

Introduction 이미지 처리, 컴퓨터 그래픽 및 컴퓨터 비전의 많은 문제는 입력 이미지를 출력 이미지로 “Translating”하는 것이라고 할 수 있습니다. [그림 1]과 같이 label이 주어진 이미지를…

Continue Reading
Posted in X-Review

[ICLR 2018] Mixed Precision Training

Introduction 일반적으로 Neural Network의 크기가 커질수록 모델의 정확도는 상승합니다. 그러나 모델의 크기가 증가하면 그에 따른 메모리 사용량 그리고 연산량도 같이 증가하게 됩니다 본 논문에서는 모델을…

Continue Reading
Posted in X-Review

[ICLR 2019] A Closer Look at Few Shot Classification

Introduction Few-shot classification 이란 이름에서 알 수 있듯 매우 적은 example이 주어진 상황에서 분류를 수행하는 것을 의미합니다. 아래의 그림을 예시로 들자면 두 가지의 class(dog, otters가…

Continue Reading
Posted in X-Review

Deep High-Resolution Representation Learning for Visual Recognition

Introduction position에 민감한 task인 semantic segmentation, human pose estimation, object detection등은 feature의 high resolution representation이 중요합니다. 기존 sota 방법론에서는 high resolution representation을 얻기 위해 [그림1]과…

Continue Reading
Posted in X-Review

[ECCV 2018] CornerNet: Detecting Object as Paired Keypoints

Introduction 기존에 사용되던 Convolution 기반 object detection모델은 anchor-based인 경우가 많았으며, 그 예로는 R-CNN. SSD, YOLO있었다고 합니다. anchor-based 방법론은 물체가 있을 법하거나, 물체의 형태를 나타내는 다양한…

Continue Reading
Posted in Paper X-Review

[ICASSP 2022] Speech Denoising in the Waveform Domain with Self-Attention

Abstract 이 논문에서 저자들은 CleanUNet이라는 raw waveform을 입력으로 하는 speech denoising 모델을 제안한다. CleanUNet은 bottleneck부분에 self-attention을 결합한 인코더-디코더 구조를 기반으로 한다. CleanUNet은 두 가지 loss를…

Continue Reading
Posted in X-Review

[ICCV 2019]FCOS: Fully Convolutional One-Stage Object Detection

Abstract 논문의 저자들은 기존에 semantic segmenataion에 사용되던 per-pixel 예측을 object detection에 사용하는 fully convolutional one-stage object detector(FCOS)를 제안합니다. 이 당시 대부분의 SOTA detector는 anchor-based로, 사용자가…

Continue Reading
Posted in X-Review

[CVPR 2018] Deep Mutual Learning

Abstract Model distilation (Knowledge distilation)은 teacher에서 student로 전이 학습을 진행하는 효과적이고, 널리 사용되는 방법론이다. 기존 연구(KD)의 접근 방식은 전형적으로 다음과 같이 나타남: powerful, large 네트워크에서…

Continue Reading
Posted in Paper X-Review

[ICLR 2021] An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale

Abstract nlp에서 transformer가 등장하고 해당 분야의 standard한 모델이 되었다. 이에 computer vision 에서도 이를 응용한 연구가 진행되었다. vision task에 attention을 사용한 것이 그 예이며, convolution…

Continue Reading