Category: Paper
Paper Review
[NeurIPS 2019] Stand-Alone Self-Attention in Vision Models
Introduction CNN은 강한 inductive bias와 translation equivariance와 같은 특성으로 이미지 관련 task에서 엄청난 성능 향상을 불러일으나, 큰 receptive fields에 대한 scaling properties가 좋지 않아 long range…
[CVPR 2021] Coordinate Attention for Efficient Mobile Network Design
안녕하세요. 세 번째 X-Review 글입니다. 지난 번 X-Review에서 CBAM 논문을 리뷰 하며 SENet도 함께 소개했기 때문에 SENet과 관련된 내용은 이전 리뷰에서 확인해주시면 감사하겠습니다. 물론, 필요…
[CVPR 2015] Show and Tell: A Neural Image Caption Generator
안녕하세요. 이번에는 2015년에 Google에서 발표한 논문을 가져와 봤습니다. 이번 학기에 수강하고 있는 수업에서 이미지 캡셔닝이 언급되어서 궁금하여 읽어보게 되었습니다. 이미지 캡셔닝 분야에서는 Show and Tell…
[arXiv 2022] DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
이번에 리뷰할 논문은 물체 검출 방법론 입니다. 트랜스포머 기반의 물체검출 중 DETR 계열의 방법론 중 처음으로 COCO 리더보드의 SOTA를 달성한 논문입니다. 현 시점에서는 해당 논문에서…
[PMLR 2020]Coresets for Data-efficient Training of Machine Learning Models
Open Question:How to select a training data subset that can theoretically and practically performs on par with the full dataset.어떻게 일부 데이터셋으로 전체데이터셋을 학습한것과 같은…
[ICCV 2019] CCNet : Criss-Cross Attention for Semantic Segmentation
안녕하세요.오늘 리뷰 할 논문은 CCNet 이라고 하는 segmentation model로써,Semantic Segmentation을 수행하는 논문인데, Attention 기법을 활용한 모델을 제안합니다. 현재 Semantic Segmentation 관련 실험을 진행중인데, 기존 baseline에서…
[ArXiv 2022] Temporal Sentence Grounding in Videos: A Survey and Future Directions
안녕하세요. 이번 주차 X-Review는 ‘Temporal Sentence Grounding in Videos’ task (이하 TSGV)에 대한 전반적인 서베이 내용으로 준비했습니다. 내년부터 ETRI 과제가 text와 video를 함께 사용하는 방향으로…
[NIPS2020]Language Models are Few-Shot Learners
안녕하세요. 이번 논문은 OpenAI에서 2020년에 공개한 GPT-3라는 불리는 논문입니다. 2020년에 나왔지만 인용수가 6000이 넘은 아주 유명한 논문인데요, 이 논문의 풀버전(여기)은 75페이지로 굉장히 많은 내용을 담고…
[CVPR 2021] Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision
현재 미래국방 과제에서 Semantic Segmentation task를 진행하고 있습니다.성능을 개선시켜야 하는데 dataset의 규모가 매우 작아서 한계가 있다고 판단하여semi-supervised 논문을 찾아서 읽어보았습니다. 그럼 리뷰 시작하겠습니다. 1. Introduction…
[TR 2018] Robust Intrinsic and Extrinsic Calibration of RGB-D Cameras
이번 리뷰 논문은 RGBD 카메라 캘리브레이션 방법론을 다룬 논문입니다. Intro RGBD는 크게 Structure-of-Light (SL)과 Time-of-Flight (ToF) 두 가지 타입의 센서로 구분이 됩니다. SL은 스테레오 방식을…
smolVLA이 큰 반향을 일으켜서 smolVLM에 관심을 가지고 있었는데 마침 리뷰를 해주셨네요. 특히, 작은 VLM 모델에서 CoT가 오히려 독이 될 수도…