안녕하세요. 황유진 연구원님 좋은 댓글 감사합니다. 키프레임의 경우 저자는 단순하게 자연어 쿼리와의 유사도를 기반으로 추출하고 있습니다. 다만, BLIP-2 자체에도 이미지-텍스트…
안녕하세요 우진님 답변 감사합니다. self-distillation 과정을 다른 논문들을 읽어본 것은 아니라 일반적인 설정 기준은 모르겠으나, 해당 논문 기준에서는 같은 구조에서…
안녕하세요 재연님 답글 감사합니다. 1. 해당 부분은 논문에 구체적으로 설명이 없고 코드도 제공되지 않았었는데, github issue 에서 저자가 공개한 코드기반으로…
안녕하세요 정민님 답글 감사합니다. 우선 dense feature 는 CLIP ViT의 마지막 layer에서 self attention 을 제거한 부분의 최종 출력이며 crop…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
안녕하세요 현우님 답글 감사합니다. 질문에 대한 답변을 드리자면 1. 아래 [1] 논문기반으로 답변드리면 마지막 블록의 self-attention 을 제거하는 이유는 CLS…