Author: 정 윤서
[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models
안녕하세요, 예순 두번째 X-Review입니다. 이번 논문은 2025년도 arXiv에 올라온 OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models입니다….
[ECCV 2022] DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning
안녕하세요, 예순 한번째 X-Review입니다. 이번 논문은 2022년도 ECCV에 올라온 DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning논문으로 prompt learning을 continual learning에 적용한 논문입니다. 바로 시작하도록 하겠습니다….
[CVPR 2024] OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition
안녕하세요, 60번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 올라온 OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition논문입니다. 바로 시작하도록 하겠습니다. ?…
[TPAMI 2025] Instruction-Guided Scene Text Recognition
안녕하세요, 쉰 아홉번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 올라온 Instruction-Guided Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Scene Text Recognition은 scene image내의 text를…
[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
안녕하세요, 쉰 여덟번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…
[ICCV 2023] CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
안녕하세요, 쉰 일곱번째 X-Review입니다. 이번 논문은 2023년도 ICCV에 올라온 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…
[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval
안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…
[ArXiv 2024] CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction
안녕하세요, 쉰 다섯번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction논문입니다. 바로 시작하도록 하겠습니다. ?? 1. Introduction 도시 거리에는 광고판이나,…
[TPAMI 2025] VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization
안녕하세요, 쉰 네번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 게재된 VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization 논문입니다. 바로 시작하도록…
[ArXiv 2024] InstructOCR: Instruction Boosting Scene Text Spotting
안녕하세요, 쉰 세번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 InstructOCR: Instruction Boosting Scene Text Spotting논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction 최근 vision과 text를 함께…
안녕하세요 인하님 리뷰 읽어주셔서 감사합니다. 첫번째 질문에 대한 답으로는 해당 기법은 물체의 trajectory를 dense reward로 정의해서 강화학습을 통해서 manipulator가 trajectory를…