Robotics and Computer Vision Lab

이 재윤 on [NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering11/03/2025
안녕하세요 인택님, 리뷰 잘 읽었습니다. AVQA task에 대해 조금이나마 알아갈 수 있는(?) 시간이었던 것 같습니다. 정말 간단한 질문 두 가지만…
이 재윤 on [ICCV 2023] HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training11/03/2025
안녕하세요 주영님, 좋은 리뷰 감사합니다. HiTeA가 long-view와 short-view를 동일한 인코더로 처리한다는 점이 신기한 것 같습니다. 그런데 그렇다면 이 두 feature…
최 인하 on ORCA: An open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning11/03/2025
안녕하세요 찬미님 댓글 감사합니다!!!! 제가 알고있는 로봇손의 구동 방식은 direct-driven 방식, tendon-driven 방식 2가지가 있다고 이해하고 있습니다. ORCA hand는 말씀하신…
황 찬미 on [CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System11/03/2025
안녕하세요 유진님 리뷰 감사합니다! 경량의 VLM으로 초안을 생성하고 지정된 프롬프트에 이 출력을 합쳐서 대규모 VLM을 사용한다고 하는데 그럼 경량의 VLM…
최 인하 on ORCA: An open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning11/03/2025
안녕하세요 우현님 댓글 감사합니다!!!! 논문에서 언급하길 joint가 분리되는 경우는 무거운 하중을 grasp할때 발생합니다. 하지만 논문에서 실행한 실험을 보면 테니스공 손바닥에서…

[ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words

Improving Language Understanding by Generative Pre-Training

[CoRL 2025] O3Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation

[CoRL 2025]One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation

[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP

[AAAI 2025]HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding

[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement

[CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval

Conference Deadline

NEW POST

New Comment