CVPR2025 참관기
안녕하세요. 이번에는 CVPR 2025 참관 후기를 작성해보려 합니다. 먼저, 이번 CVPR 학회에 직접 참관할 수 있는 기회를 주신 교수님께 진심으로 감사드립니다. 이번 CVPR 2025는 2025년…
CVPR 2025 참관기
안녕하세요, 허재연입니다. 좋은 기회로 지난 6월 11일 – 6월 15일 5일간 진행된 CVPR 2025에 참석하였습니다. 보고 느낀 점들이 많아 참관 후기를 작성해보고자 합니다. CVPR은 모두…
[arXiv 2024] Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts
안녕하세요, 예순 네번째 X-Review입니다. 이번 논문은 2024년도 arXiv에 올라온 Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts입니다. 바로 시작하도록…
[CVPR 2024] Bridging the Gap Between End-to-End and Two-Step Text Spotting
안녕하세요 이번주에도 Text Spotting 논문을 가져와 리뷰해보겠습니다. 1. Introduction & Related Studies natural scene에서의 text를 인식하는 text spotting 태스크는 실제 세계에서 다양한 분야에 적용되기 때문에…
[ICLR 2021]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
안녕하세요 이번 X-Review로 ViT를 가져왔습니다.Transformer 구조를 이미지 쪽으로 가져오기 위한 많은 과정이 있었겠지만 약 4년만에 나온 논문으로 생각보다 오랜시간이 걸렸는데요. 해당 Transformer가 나왔을 당시의 GPU적…
[arXiv 2025] Perfecting Depth: Uncetrainty-Aware Enhancement of Metric Depth
안녕하세요, 69번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Perfecting Depth라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monoculdar depth estimation(MDE)는 아주 초기에는…
CVPR2025 참관기
지난주 내슈빌에서 열린 CVPR 2025 참관 후기를 작성하고자 합니다. 무슨 이야기를 담으면 좋을까 하다가 학회에서 흥미롭게 봤던 연구 내용들은 세미나 시간에 풀면 될 것 같다는…
[ICLR 2025] SINGAPO: SINGLE IMAGE CONTROLLED GENERATIONOF ARTICUALTED PARTS IN OBJECTS
안녕하세요 이번주 x-review는 image to 3D 논문입니다. 기존에 3D reconstruction을 진행하면서 3D-gaussian을 mesh화 한 뒤에 시뮬레이터를 위한 asset으로 활용하려고 했으나 gaussian -> mesh 과정에서 어려움이…
[CVPR2023]Align and Attend: Multimodal Summarization with Dual Contrastive Losses
오늘 소개드릴 논문은 multimodal summarization 논문입니다. 논문이 말하길 기존 연구의 경우 멀티모달의 동시성있는 정보를 잘 활용하지 못했고, 데이터 내제적인(본질적인) 정보의 활용이 부족했다고 합니다. 본 논문은…
[EMNLP 2024] LUQ: Long-text Uncertainty Quantification for LLMs
안녕하세요. 이번엔 LLM에서의 Hallucination 문제를 uncertainty score 개념을 기반으로 인지하고 이를 정량적으로 수치화한 뒤 증상을 완화하기 위한 방법론에 대해 리뷰를 가져왔습니다. 1. Introduction LLM은 다양한…
안녕하세요 지연님 좋은 리뷰 감사합니다. SGM 설명해주시는 부분에서 저는 문맥상 SGM이 학습시에만 사용되서 visual feature가 context정보를 학습하도록 돕는다고 이해했는데 "SGM은…