Robotics and Computer Vision Lab

김 영규 on [CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real09/16/2025
안녕하세요 인하님 리뷰 읽어주셔서 감사합니다. 첫번째 질문에 대한 답으로는 해당 기법은 물체의 trajectory를 dense reward로 정의해서 강화학습을 통해서 manipulator가 trajectory를…
김 영규 on [CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real09/16/2025
안녕하세요 재찬님 댓글 감사합니다. reward를 다른 방식으로 변화를 주어 RL을 진행한 ablation이라는 표현이 객체 중심의 reward와 모션 중심의 reward를 말씀하시는건가요?…
허 재연 on [CVPR 2023] Feature Aggregated Queries for Transformer-based Video Object Detectors09/16/2025
basic query는 기본적으로 random init되므로 해당 frame의 시각적 정보를 담고 있지 않습니다. 이를 함께 사용하면 학습 과정에서 도움을 줄 수는…
신 인택 on [CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP09/15/2025
안녕하세요 예은님 답글 감사합니다. 1번 질문에 대해서는 올바르게 이해하셨씁니다. 파인튜닝을 진행하지 않았을때는 뭐 당연하게도 base novel 클래스에 대해 비슷한 분포를…
신 인택 on [CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP09/15/2025
안녕하세요 재윤님 답글 감사합니다. temperature는 softmax 함수에서 확률값이 되기 전 로짓에 T 라는 상수를 나눠줘 너무 극단적으로 확률값이 치우쳐지지 않게…

[ICCV2025] Object-centric Video Question Answering with Visual Grounding and Referring

[ICCV 2025] DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding

[WACV 2024]Revisiting Token Pruning for Object Detection and Instance Segmentation

[IEEE 2024 IJCNN]Image Caption Method from Coarse to Fine Based On Dual Encoder-Decoder Framework

[ICCV2025] Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching

[ICCV 2025] RoboPearls: Editable Video Simulation for Robot Manipulation

[TMM 2025] Spatial-Temporal Saliency Guided Unbiased Contrastive Learning for Video Scene Graph Generation

[CVPR 2025] UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

[ACM MM 2024] Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

[CVPR2025] Cross-modal Causal Relation Alignment for Video Question Grounding

Conference Deadline

NEW POST

New Comment