05/19/2025 – Robotics and Computer Vision Lab

[AAAI2024]V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

앞서서 사용자 질의 반영 비디오 요약과 일반 비디오 요약을 통합한 프레임워크를 소개드렸는데요, 오늘 소개드릴 논문은 더 광범위한 비디오 요약 테스크를 한번에 수행하는 방법을 소개합니다. 비디오…

[CoRL 2023 Oral] Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

안녕하세요. 이번 리뷰는 로봇 에이전트가 기존에 가지고 있는 skill policy들에 기반하여 LLM을 통해 가이던스를 얻어 적절한 skill 조합을 만들어내고 그것으로부터 로봇의 Long-horizon task 를 해결하는…

X-Review

[ICML 2025] FG-CLIP: Fine-Grained Visual and Textual Alignment

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 fine-grained CLIP입니다. 대규모 이미지-텍스트 모델인 CLIP의 fine-grained 능력을 향상시킨 연구입니다. Introduction CLIP은 대규모 이미지-텍스트 모델로 zeroshot 이미지 분류와 같은…

Conference X-Review

[ICRA 2022] Affordance Learning from Play for Sample-Efficient Policy Learning

제가 이번에 리뷰할 논문은 강화학습을 이용하여 로봇의 grasping을 수행하기 위한 연구입니다. 이전에 서베이를 하다 찾게된 논문으로, affordance에 대한 명시적인 라벨링을 사용하지 않고, 사람의 teleportation 데이터를…

Paper X-Review

[CVPR 2024]YOLO-World:Real-Time Open-Vocabulary Object Detection

안녕하세요 이번에 첫번째 X-review를 작성하게된 안우현 이라고합니다. 제가 오늘 첫번재로 가져온 논문은 2024년 3월 CVPR에 게재된 Open Vocabulary Object Detection 분야의 최신 연구라고 볼 수…

Paper X-Review

[NeurIPS 2024] Scene Graph Generation with Role-Playing Large Language Models

안녕하세요, 허재연입니다. 오늘도 Open-Vocabualry Scene Graph Generation(OV-SGG) 논문을 들고 왔습니다. 기존 OV-SGG 방법론들이 scene-agnostic하게 text classifier를 적용시킨 방식에 대해 문제를 제기하고, LLM을 적극적으로 활용하여 주어진…

Paper X-Review

[AAAI 2023] DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer

안녕하세요 류지연입니다. TESTR 논문 리뷰에 이어서 TESTR의 검출 성능을 개선한 DPText-DETR 논문에 대해 리뷰 진행해보도록 하겠습니다. 1. Introduction Text spotting은 OCR(문자 인식) task 중 하나로…

Conference X-Review

[ICLR 2025] TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

오늘은 연산량과 추론속도 해결에 집중한 Text-Video Retrieval 논문에 대해 리뷰해보겠습니다. Conference: ICLR 2025 Authors: Leqi Shen, Tianxiang Hao, Tao He, Sicheng Zhao, Yifeng Zhang, pengzhang liu,…

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

[일:] 2025년 05월 19일

[AAAI2024]V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

[CoRL 2023 Oral] Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

[ICML 2025] FG-CLIP: Fine-Grained Visual and Textual Alignment

[ICRA 2022] Affordance Learning from Play for Sample-Efficient Policy Learning

[CVPR 2024]YOLO-World:Real-Time Open-Vocabulary Object Detection

[NeurIPS 2024] Scene Graph Generation with Role-Playing Large Language Models

[AAAI 2023] DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer

[ICLR 2025] TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

학술대회 마감

최신 글

최신 댓글

학술대회 마감

태그

카테고리

최신 글

최신 댓글