Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2022] TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition
오늘 가져온 논문은 무려… CVPR ORAL을 받은 논문인데요. 코드 공개도 한다고 되어있어서 두근두근하고 Github을 들어갔는데… 구조가 어렵지는 않아서 짜라면 짤 수는 있을 것 같은데, 코드…
[CVPR 2023] Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels
안녕하세요. 이번 X-Review는 23년도 CVPR에 게재된 논문 <Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels>입니다. 바로 리뷰 시작하겠습니다. 1. Introduction…
[WACV 2021] TCA: Temporal Context Aggregation for Video Retrieval with Contrastive Learning
안녕하세요. 백지오입니다. 아홉 번째 X-REVIEW는 Video Retrieval 분야에서 2021년 제안된 논문인 TCA입니다. 아시다시피 영상은 수많은 프레임(이미지)들로 구성되며, 이러한 프레임들에 포함된 시각적 정보들이 시간이 흐름에 따라…
[ECCV 2016] Identity Mappings in Deep Residual Networks
안녕하세요, 허재연입니다. 이번에 리뷰할 논문은 ResNet의 후속 논문으로, Kaiming He 등 ResNet 저자들이 skip connection을 분석해 기존보다 개선된 ResNetv2를 제안한 논문입니다. skip connection을 적용한 backbone들에…
[2023 AAAI] Towards Global Video Scene Segmentation with Context-Aware Transformer
Before Review 이번 논문 리뷰는 Video Scene Segmentation이라는 주제로 준비했습니다. (GNN Part.2에 대한 리뷰는 다음주로 미루도록 하겠습니다.) 본 논문과 동일한 task를 진행하는 다른 리뷰들은 아래에…
[CVPR 2023] Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning
CVPR 2023에 게재된 Open-set 과 Self-supervised learning 과 관련한 논문을 리뷰하려고 합니다. 해당 논문은 Active Learning 의 목적과 비슷하게 ‘라벨이 없는 데이터셋에서 유용한 하위 데이터셋을…
[AAAI 2020] Background Suppression Network for Weakly-Supervised Temporal Action Localization
안녕하세요. 백지오입니다. 여덟 번째 X-REVIEW는 Temporal Action Localization (TAL) task에 약지도학습을 적용한 방법인 Background Suppression Network, BaS-NET 리뷰입니다. 본격적인 리뷰에 앞서, Temporal Action Localization task에…
[CVPR2015]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
서론 해당 논문이 발표된 2015년도에도 DNN을 통한 이미지 인식, 특히 분류(classification)는 많은 데이터셋에서 인간 수준 혹은 그 이상의 성능을 달성했다고 평가됩니다. 그러나 인간과 컴퓨터간의 차이는…
[ECCV 2022] Masked Discrimination for Self-Supervised Learning on Point Clouds
masked autoencoding은 language와 image domain에서 self-supervised learning에 큰 성공을 거두었다. 하지만 masking방식 기반의 pretraining은 3d point cloud를 이해하는데 있어서 이점을 아직 보여주지 못했다. 이에 대해…
[ICASSP 2022] AudioCLIP : Extending CLIP To Image, Text And Audio
23.07.19 : train 파트 내용 추가 안녕하세요. 제가 이전에 CLIP 논문을 리뷰하면서 text, visual modality을 audio, text, visual modality로 확장할 수는 없을까 생각한 적이 있는데요….
안녕하세요 석준님 좋은 댓글 감사합니다. Q1. 생성되는 subgoal 이라는 것은 장면 ‘이미지’ 인가, 아니면 ‘경로’ 인가요? 먼저 ViNT에서 Diffusion 모델이…