Author: 조 원
[arXiv2021] Are Convolutional Neural Networks or Transformers more like human vision? – [1]
읽을 논문을 찾아보던 와중 독특한 이름의 논문이 눈에 들어와 읽고 리뷰하게 되었습니다. 이름은 “Are Convolutional Neural Networks or Transformers more like human vision?” 으로 현재…
보호된 글: [ICCV2021 PeerReview] Cross-Modal Feature Fusion for Object Detection without Depth Supervision
보호하고 있는 글이라서 요약이 없습니다.
[arXiv2021] MLP-Mixer: An all-MLP Architecture for Vision
이전에는 Convolution Neural Network가 대다수였던 것에 비해 최근에는 Transformer 구조가 Computer Vision 내의 여러 분야에서 좋은 성능을 보이며 주목을 끌고 있습니다. 이러한 와중에 Google에서는 MLP…
[Challenge] ActivityNet Challenge 2020
약 한달간 CVPR workshop 에서 열리는 ActivityNet Challenge 2021에 참여하게 되어 본격적으로 시작하기에 앞서 전년도 ActivityNet Challenge 2020에 대한 리뷰를 진행합니다. 제가 나가는 분야로는 Action…
[CVPR2015] ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding
이전 Action Retrieval을 위해서 ActivityNet을 다운 받고 다운로드 페이지 정도의 내용만 이해하여 사용하였었으나 올해 CVPRW 에서 열리는 ActivityNet Challenge에 참여할 예정이기에 보다 ActivityNet 데이터 셋에…
[arXiv2021] ViViT: A Video Vision Transformer
지난번에 리뷰 중, Video classification task에 transformer 구조를 처음 도입한 Facebook 의 TimeSformer가 2021년 2월 9일에 나왔다면 조금 지난 2021년 3월 29일 Google에서도 Video classification…
[arXiv2021] Is Space-Time Attention All You Need for Video Understanding?
최근 NLP 분야에서 CNN이나 RNN과는 구조가 아예 다른 self-attention 기반 방법론인 Transformer가 등장했고 좋은 성능을 내며 SOTA를 달성하고 있습니다. 더불어 컴퓨터비전 분야에서도 이러한 Transformer 구조를…
[ECCV2016] Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
다양한 길이를 가진 video 연구에서는 비용적인 측면을 고려해서 모든 프레임을 사용하여야 하는가에 대한 여러 연구들이 진행되어왔고, 최근 연구들은 연속된 프레임 간의 정보보다 특정 프레임 내의…
최신 댓글