Robotics and Computer Vision Lab

정 윤서 on [ICCV 2023] CLIPTER: Looking at the Bigger Picture in Scene Text Recognition08/13/2025
댓글 감사합니다. 본 모델 구조를 보면 아시겠지만 text encoder는 사용하고 있지 않습니다. VLM의 encoder iamge 부분만 가져와 scene image를 embedding한…
정 윤서 on [TPAMI 2025] Instruction-Guided Scene Text Recognition08/13/2025
안녕하세요. 댓글 감사합니다. 1. 말 그대로 condition은 사전에 image에 대한 부가 정보를 주는 것으로 보심 되겠습니다. question이 예를 들어 이미지에…
정 윤서 on [ICCV 2023] Segment anything08/13/2025
안녕하세요. 댓글 감사합니다. 1. 넵 맞습니다. 2. invalid mask 예로는, click한 지점과 전혀 무관한 object가 선택되거나, 의미 없는 배경이나 노이즈…
정 윤서 on [ICCV 2023] Segment anything08/13/2025
안녕하세요. 댓글 감사합니다. SAM은 모호한 prompt에 대해 최대 3개의 valid한 mask를 예측하는데, 이를 전체, 부분, 하위 부분처럼 명시적으로 라벨링을 하지는…
손 건화 on [AAAI 2025](Oral) DepthFM: Fast Generative Monocular Depth Estimation with Flow Matching08/13/2025
안녀하세요, 리뷰 읽어주셔서 감사합니다. 우선 첫번째 질문에 대해는 말씀하신 것처럼 기본적으로 노이즈로 시작해서 데이터를 향해 가는 경로를 학습하는 점은 diffusion과…

Recent Posts