[ICLR 2020] Training Binary Neural Networks with Real-to-Binary Convolutions
이번에 리뷰한 논문은 quantization 분야의 논문입니다. 그 중에서도 binary neural network 논문을 가져왔는데요, 모델의 가중치가 0혹은 1로 표현된 binary 모델을 학습하여 full precision의 모델과 비슷한…
[CVPRw 2022]Category-Agnostic 6D Pose Estimation with Conditional Neural Processes
제가 이번에 리뷰할 논문은, cross-category level 6D Pose Estimation이라는 새로운 방식의 6D Pose Estimation 방식입니다. 기존에 리뷰했던 논문들은 객체 별로 3D 모델이 필요한 instance-level의 방식과…
[CVPR 2022 (oral)] CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow Estimation
이번 리뷰 논문은 3D optical flow ~ scene flow에 관한 논문이며, 포인트 클라우드와 영상 정보를 어떻게 하면 잘 융합하여 사용할지에 대해서 다룬 방법론에 해당합니다. 2021…
[arXiv 2022] Unsupervised Prompt Learning for Vision-Language Models
안녕하세요, 이번 주차 X-Review는 22년도 arXiv에 올라온 <Unsupervised Prompt Learning for Vision-Language Models>라는 논문입니다. 해당 논문은 Image Classification 문제를 다루며, 다른 dataset으로의 transfer 시 CLIP의…
[ECCV2022] RADepth: Resolution Adaptive Self-Supervised Monocular Depth Estimation
제가 이번에 리뷰할 논문은 RADepth라는 ECCV22년도에 게재된 논문입니다. Self-supervised Monocular Depth Estimation task를 다루고 있으며 보다 구체적으로는 다양한 resolution의 영상이 입력으로 들어온다고 하더라도 일관성 있는…
[Neurocomputing 2022] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
이런 분들께 이 논문을 추천드립니다. CLIP을 비디오에 적용하는 방식에 흥미가 있으신 분 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive learning에 대한 이해 (CLIP…
[INTERSPEECH 2023] MMER: Multimodal Multi-task Learning for Speech Emotion Recognition
이번에 리뷰할 논문은 Interspeech 2023에 발표된 MMER이라는 논문입니다. 해당 논문은 음성 감정 인식을 수행하기 위해 text데이터를 추가적으로 활용하는 멀티모달 감정인식 논문으로 multi-task learning을 사용하여 IEMOCAP…
[CVPR 2023]BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects
안녕하세요 제가 이번에 리뷰할 논문은 real-time으로동작 가능한 6-DoF tracking논문입니다. 지금까지 리뷰한 논문을 물체와 카메라의 pose 정보를 비교한다면, 해당 task는 연속적인 sequence 내에서 물체가 어떻게 변하는지를…
안녕하세요 인하님 트랜스포머를 다뤄주셨네요. 저도 트랜스포머를 처음 봤을떄도 그렇고 지금도 cross attention 이나 self attention 을 모듈에 사용하면서도 어떻게 연산이…