[CVPR 2023] Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels
안녕하세요. 이번 X-Review는 23년도 CVPR에 게재된 논문 <Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels>입니다. 바로 리뷰 시작하겠습니다. 1. Introduction…
[WACV 2021] TCA: Temporal Context Aggregation for Video Retrieval with Contrastive Learning
안녕하세요. 백지오입니다. 아홉 번째 X-REVIEW는 Video Retrieval 분야에서 2021년 제안된 논문인 TCA입니다. 아시다시피 영상은 수많은 프레임(이미지)들로 구성되며, 이러한 프레임들에 포함된 시각적 정보들이 시간이 흐름에 따라…
[ECCV 2016] Identity Mappings in Deep Residual Networks
안녕하세요, 허재연입니다. 이번에 리뷰할 논문은 ResNet의 후속 논문으로, Kaiming He 등 ResNet 저자들이 skip connection을 분석해 기존보다 개선된 ResNetv2를 제안한 논문입니다. skip connection을 적용한 backbone들에…
[2023 AAAI] Towards Global Video Scene Segmentation with Context-Aware Transformer
Before Review 이번 논문 리뷰는 Video Scene Segmentation이라는 주제로 준비했습니다. (GNN Part.2에 대한 리뷰는 다음주로 미루도록 하겠습니다.) 본 논문과 동일한 task를 진행하는 다른 리뷰들은 아래에…
[CVPR 2023] Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning
CVPR 2023에 게재된 Open-set 과 Self-supervised learning 과 관련한 논문을 리뷰하려고 합니다. 해당 논문은 Active Learning 의 목적과 비슷하게 ‘라벨이 없는 데이터셋에서 유용한 하위 데이터셋을…
[AAAI 2020] Background Suppression Network for Weakly-Supervised Temporal Action Localization
안녕하세요. 백지오입니다. 여덟 번째 X-REVIEW는 Temporal Action Localization (TAL) task에 약지도학습을 적용한 방법인 Background Suppression Network, BaS-NET 리뷰입니다. 본격적인 리뷰에 앞서, Temporal Action Localization task에…
[CVPR2015]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
서론 해당 논문이 발표된 2015년도에도 DNN을 통한 이미지 인식, 특히 분류(classification)는 많은 데이터셋에서 인간 수준 혹은 그 이상의 성능을 달성했다고 평가됩니다. 그러나 인간과 컴퓨터간의 차이는…
[ECCV 2022] Masked Discrimination for Self-Supervised Learning on Point Clouds
masked autoencoding은 language와 image domain에서 self-supervised learning에 큰 성공을 거두었다. 하지만 masking방식 기반의 pretraining은 3d point cloud를 이해하는데 있어서 이점을 아직 보여주지 못했다. 이에 대해…
[ICASSP 2022] AudioCLIP : Extending CLIP To Image, Text And Audio
23.07.19 : train 파트 내용 추가 안녕하세요. 제가 이전에 CLIP 논문을 리뷰하면서 text, visual modality을 audio, text, visual modality로 확장할 수는 없을까 생각한 적이 있는데요….
[CVPR 2020] ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes
안녕하세요 ! 여섯번째 X-review로 VoteNet에 이어 ImVoteNet을 읽어보았습니다. VoteNet의 구조를 기반으로 하는 논문이라 관련 내용은 지난주에 제가 작성한 리뷰를 참고해주시면 감사하겠습니다. 그럼 리뷰 시작하겠습니다. 1….
안녕하세요, 리뷰 읽어주셔서 감사합니다.. 논문에서 text로 얻는 평균과 분산은 텍스트에 적합한 다양한 장면들의 분포를 나타내는 prior 역할을 하게 됩니다. 그런데…