Category: Paper
Paper Review
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval
현재 Text-to-video retrieval 에서 SOTA 를 달성하고 있는 논문입니다. 중국의 유명한 인터넷 플랫폼 서비스 기업인 ‘alibaba’에 속한 인공지능 연구기관 ‘DAMO academy’에서 나온 논문이에요. 리뷰 시작하도록…
[3DV2022]Channel-Wise Attention-Based Network for Self-Supervised Monocular Depth Estimation
어김없이 돌아온 저의 Self-supervised depth estimation 논문리뷰가 되겠습니다. 이 논문 또한 3DV 논문이며 저희 논문의 비교군중 하나라 생각하시면 됩니다. 이 논문은 저희 논문과 유사한 면이…
LabelFusion: A Pipeline for Generating Ground Truth Labels for Real RGBD Data of Cluttered Scenes
안녕하세요 이번에 제가 다루게된 논문은 LabelFusion이라고 불리는 논문입니다. 해당 논문은 3D 라벨링을 하는 파이프라인을 다룬 논문 2018년 ICRA에 발표된 논문입니다. 가동원전 데이터셋 촬영에 대한 고민을…
[ECCV 2018] A Joint Sequence Fusion Model for Video Question Answering and Retrieval
우선, 요즘 MSR-VTT 데이터셋을 이용하는 원복 실험을 하는 중인데, text-clip retrieval 의 경우 해당 논문에서 사용한 방법으로 evaluate 를 하길래 읽게 되었습니다. (이 내용이 핵심은…
[NeurIPS2020] Swapping Autoencoder for deep Image Manipulation
이번에 진행할 리뷰는 Image Translation task과 거의 유사한? Image Manipulation 분야의 논문을 가져왔습니다. 저자는 CycleGAN의 저자인 박태성님이 주저자로 작성한 논문입니다. 이분도 그렇고 Adobe Research가 이쪽…
[ICLR2020]Revisiting Self-Training for Neural Sequence Generation
기존 Self-Training의 경우 classification task에 주로 사용되었으며 비교적 복잡한 sequence generation tasks(예. machine transflation)는 target space의 구성적 특징으로 그 효과가 명확하지 않았다. 본 논문에서는 self-training이…
[ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips
Text-Video 데이터셋으로 많이 쓰이는 HowTo100M 에 대한 리뷰입니다. 본 논문의 주요 컨트리뷰션은 아래의 세 가지 입니다. 기존 데이터셋들보다 Large-scale 인, Text-Video 데이터셋 HowTo100M 제안 HowTo100M을…
[CVPR 2021] Spatiotemporal Contrastive Video Representation Learning
이번에 리뷰할 논문은 self-supervised video representation을 다룬 “Spatiotemporal Contrastive Video Representation Learning” 이라는 논문입니다. 해당 논문에서는 CVRL이라는 video representation learning을 위한 데이터 augmentation 기법을 통해…
[NAACL 2018] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding
Before Review 이번 리뷰는 자연어처리 논문을 읽게 되었습니다. BERT라고 해서 아마 한번쯤을 들어보셨을 법한 논문을 읽게 되었는데요, 이번 캡스톤 주제중 하나인 Text-to Video 논문을 읽을라고…
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision
image가 주어졌을 때, 그에 대한 text 를 prdict 하는 것을 목적으로 pretrained 된 모델, CLIP에 대한 리뷰입니다. 우선 CLIP은 Contrastive Language-Image Pretraining 의 약자인데요. 이…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…