Author: 신 인택
[신인택] 2025년을 보내며
안녕하세요 신인택 연구원입니다. 연구실에 들어와서 URP 후기나 상반기 회고록을 작성하였지만, 1년을 마무리하는 글을 벌써 작성하게 될줄은 몰랐네요. 분명 첫 후기에는 석사 입학까지 1년이 남은 시점이라는…
[NeurIPS 2020]Object-Centric Learning with Slot Attention
제가 이번에 리뷰할 논문은 Slot Attention 이라는 개념을 도입한 논문입니다. Object-centric 이라는 표현이 이 논문에서 처음 등장한 것은 아니지만, 이미지가 여러 객체들의 조합으로 표현이 가능하다는…
[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…
[ECCV 2024 Workshops]Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
안녕하세요, 오늘도 AVQA 관련해서 논문 팔로우업도 할겸, 읽어보게 된 논문을 들고왔습니다. 이후 AVQA 관련 논문을 적을때 어떤 figure 어떤 실험들이 필요로하게 될지 생각의 폭을 넓히기…
[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering
안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…
[Arxiv 2023]ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES
안녕하세요 오늘은 여러 모달리티를 잘 엮어서 하나의 범용 표현 모델을 만든 논문을 들고왔습니다. 사실 최초 읽은 이유는 audio 모달리티에 대한 얻을 수 있는 인사이트가 없나…
[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection
안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…
[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP
안녕하세요 이번에 들고온 논문은 Open-vocabulary 세팅에서 파인튜닝된 CLIP 이 가지는 confidence calibration 문제를 다룬 논문입니다. 바로 논문리뷰 시작하겠습니다. Abstract 비전 언어 모델들은 최근 다양한 Open…
[ICLR2024]CLIPSELF : VISION TRANSFORMER DISTILLS ITSELF FOR OPEN-VOCABULARY DENSE PREDICTION
안녕하세요. 이번 논문은 CLIPSELF 라는 논문입니다. CLIP 의 모델 설계구조상 가지지 못하는 locality를 self distill 방식으로 보완하였고, Object detection 뿐만 아니라 segmentation 까지 쓰일 수…
2025년도 하계 URP 조교를 마치며
안녕하세요 이번 x-diary로 URP 조교를 마치며를 적게되었습니다. 생각보다 2달이라는 시간이 굉장히 빨리 지나 그때그때의 감정들을 적어놓지는 못했지만, 최대한 느꼈던 감정 상태를 떠올리며 작성해보겠습니다. 이번 URP…
안녕하세요 찬미님 좋은 리뷰 감사합니다. 읽다가 궁금한점이 몇가지 생겨서 질문드립니다 먼저 llama와 같은 llm에 대한 제 지식이 많지 않아서 드는…