Author: 홍 주영
[Arxiv 2026] DeepSeek-OCR 2: Visual Causal Flow
최근에 DeepSeek 에서 공개한 논문을 좀 리뷰한 것 같네요. 리뷰 링크는 아래에 적어두겠습니다 오늘 리뷰할 페이퍼는 1번 논문인 DeepSeek-OCR 그 다음 버전으로 DeepSeek-OCR 2 입니다….
[ICCV 2025] Bidirectional Likelihood Estimation withMulti-Modal Large Language Models for Text-Video Retrieval
1. Introduction Text-Video Retrieval은 주어진 텍스트에 대응되는 비디오, 혹은 비디오에 대응되는 텍스트를 검색하는 태스크입니다. 기존에는 CLIP이나 BERT 기반의 dual-encoder 구조가 주로 사용되었으며, 계산 효율은 높았지만…
[Arxiv 2026] Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
오늘은 DeepSeek AI 연구팀이 최근 공개한 LLM 논문을 리뷰해보겠습니다. DeepSeek 팀은 작년 이맘때 MoE 기반 모델로 큰 주목을 받았던 만큼, 1/12에 공개한 이번 논문도 많은…
[EMNLP 2025] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
해당 논문은 텍스트-비디오 검색 연구에서도 LLM 및 CoT가 도입된 것 같아 읽어보게되었습니다. 1. Introduction 이 논문은 기존 텍스트-비디오 검색 시스템이 “왜 이 비디오가 검색되었는지” 를…
2025년을 마치며
올해를 한 문장으로 정리하자면, “나는 어떤 사람인가를 조금 더 분명하게 알게 된 해”였던 것 같습니다. 결과적으로 눈에 보이는 성과만 놓고 보면 애매하기 때문입니다. 개인 주도의…
[NeurIPS 2025] Video-R1: Reinforcing Video Reasoning in MLLMs
0. Background (RL & GRPO) 언어모델에서의 강화학습(RL)은 정답만 맞히는 모델이 아니라 “풀이 과정이 논리적으로 타당한지”까지 고려하도록 설계하는 학습 방식이라고 합니다. 단순히 정답 여부로 평가받는 것이…
[Arxiv 2025] DeepSeek-OCR: Contexts Optical Compression
RAG 과정에서 텍스트와 이미지의 연관성을 어떻게 다루고 있는지 얘기하던 중, 졸업생 이광진 연구원이 DeepSeek-OCR이라는 텍스트를 비전으로 압축(?)한다는 개념을 소개해줘서 DeepSeek-OCR 논문을 읽게 되었습니다 1. Background…
[ICML 2025] Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval
오늘은 늘 리뷰하던 Text-Video Retrieval이 아닌 Text-Visual Retrieval 페이퍼를 리뷰해보겠습니다 1. Introduction Text-Visual Retrieval은 사용자가 입력한 문장을 기반으로 가장 관련 있는 이미지나 영상을 찾는 작업입니다….
[ICCV 2025] Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization
오늘도 Text Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 다만 신기한 논문 제목에서부터 Interactive Text-to-Video Retrieval(Interactive TVR) 인 것처럼, 기존에 제가 리뷰하던 단순 TVR이 아닌 User와 상호작용하면서…
[ICCV 2023] HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
Video Text Retrieval에 대한 논문을 준비하고 있어, 해당 주제의 논문을 리뷰해보겠습니다. 1. Introduction 최근 비디오(Video)-언어 사전학습(VLP, Video-Language Pretraining)이 활발히 연구되고 있습니다. 기존 연구들은 주로 이미지(Vision)-언어…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…