Robotics and Computer Vision Lab

김 영규 on [CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real09/16/2025
안녕하세요 인하님 리뷰 읽어주셔서 감사합니다. 첫번째 질문에 대한 답으로는 해당 기법은 물체의 trajectory를 dense reward로 정의해서 강화학습을 통해서 manipulator가 trajectory를…
김 영규 on [CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real09/16/2025
안녕하세요 재찬님 댓글 감사합니다. reward를 다른 방식으로 변화를 주어 RL을 진행한 ablation이라는 표현이 객체 중심의 reward와 모션 중심의 reward를 말씀하시는건가요?…
허 재연 on [CVPR 2023] Feature Aggregated Queries for Transformer-based Video Object Detectors09/16/2025
basic query는 기본적으로 random init되므로 해당 frame의 시각적 정보를 담고 있지 않습니다. 이를 함께 사용하면 학습 과정에서 도움을 줄 수는…
신 인택 on [CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP09/15/2025
안녕하세요 예은님 답글 감사합니다. 1번 질문에 대해서는 올바르게 이해하셨씁니다. 파인튜닝을 진행하지 않았을때는 뭐 당연하게도 base novel 클래스에 대해 비슷한 분포를…
신 인택 on [CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP09/15/2025
안녕하세요 재윤님 답글 감사합니다. temperature는 softmax 함수에서 확률값이 되기 전 로짓에 T 라는 상수를 나눠줘 너무 극단적으로 확률값이 치우쳐지지 않게…

[2025-하계][황찬미] URP를 마치며

2025년도 하계 URP 조교를 마치며

2025년도 하계 URP 조교를 마치며

2025년도 URP 조교를 마치며

[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment

[ICCV 2025] RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

[2025 arXiv] TEACH: TEXT ENCODING AS CURRICULUM HINTS FOR SCENE TEXT RECOGNITION

[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System

[arXiv 2025]Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

[2023 CVPR] Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

Conference Deadline

NEW POST

New Comment