[카테고리:] Paper
Paper Review
[ICML 2022] data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
안녕하세요. 이번 x-reivew는 임근택 연구원이 추천해준 논문 “data2vec: A General Framework for Self-supervised learning in Speech, Vision, and Language” 입니다. 요즘에 올라오는 리뷰마다 self-supervised 키워드가…
[arXiv 2022] InternVideo : General Video Foundation Models via Generative and Discriminative Learning
Before Review Video 진영에도 GPT, BERT라고 할만한 Foundation Model이 등장한 것 같습니다. 결과만 놓고 보면 39가지의 데이터 셋을 가지고 평가하여 모든 SOTA를 갈아치웠습니다. 개인적으로는 아쉬운…
[NeurIPS2022] Croco: Self-supervised Pre-training for 3D Vision tasks by Cross-view Completion
이번에 소개드릴 논문은 네이버 랩스 유럽팀에서 연구한 CroCo라는 논문입니다. 분야는 핫하디 핫한 Masked AutoEncoder(MAE)를 기반으로 한 Self-supervised learning 연구이며, 네이버 랩스다 보니 3D Geometry 분야에…
[CVPR 2021] Self-supervised Video Representation Learning by Context and Motion Decoupling
오늘의 X-Review는 Self-supervised Video Representation Learning 관련 논문으로 준비해보았습니다. 2021년도 CVPR에 게재되었으며, 중국 기업 알리바바에서 작성하였네요. 참고로 아직 해당 task의 20, 21년도의 논문을 follow-up 하고…
[CVPR2021]Prototype Augmentation and Self-Supervision for Incremental Learning
. . . Incremental Learning 소개 지난 주 세미나에서 소개드렸듯이 우선 본 논문의 task인 incremental learning에 대해 소개하고 시작하겠습니다. incremental learning이란 인공지능의 학습에서 새로운 task에…
[ICCV 2021 Workshop] CDAda : A Curriculum Domain Adaptation for Nighttime Semantic Segmentation
오늘 리뷰할 논문은 RGB Night 상황에서 Semantic Segmentation을 수행할 때효과적인 Domain Adaptation 을 통해서 성공적인 성능 향상을 이뤄낸 논문입니다. 원래는 미래 국방 과제의 follow up을…
[arXiv 2022] Movie2Scenes : Learning Scene Representations Using Movie Similarities
Before Review 꽤나 흥미롭고 자극적인(?) 논문을 가져왔습니다. 자극적이라고 한 이유는 저자들이 데이터셋 두개를 새롭게 제안 하였는데, 그 중 하나가 굉장히 자극적인 컨텐츠를 담고 있는 데이터셋이기…
[CVPR 2017] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
안녕하세요. 네 번째 X-Review입니다. 해당 논문은 point cloud를 딥러닝 모델의 입력으로 하는 과정을 담은 첫 논문으로, 오픈 세미나에서 말씀드렸던 것과 같이 관심 주제인 object detection…
[ICLR 2022] Uniformer : Unified Transformer For Efficient Spatiotemporal Representation Learning
Before Review 이번에도 BackBone 연구 입니다. 이전에 조원 연구원이 리뷰한 TimeSformer와 비슷하게 비디오 데이터를 Vision Transformer를 바탕으로 이해하는 연구 입니다. 흥미로웠던 것은 3D CNN의 장점과…
[ECCV2022]MultiMAE: Multi-modal Multi-task Masked Autoencoders
이번에 소개드릴 논문은 요새 self-supervised learning에서 핫한 Masked Autoencoder입니다. 근데 이제 Multi-modal과 Multi-task를 곁들인. 혹시 Masked Autoencoder(MAE)에 대해서 아직 잘 모르시는 분들은 저희 연구실의 미래…
최신 댓글