안녕하세요. 황유진 연구원님 좋은 댓글 감사합니다. 키프레임의 경우 저자는 단순하게 자연어 쿼리와의 유사도를 기반으로 추출하고 있습니다. 다만, BLIP-2 자체에도 이미지-텍스트…
안녕하세요 현우님 답글 감사합니다. 질문에 대한 답변을 드리자면 1. 아래 [1] 논문기반으로 답변드리면 마지막 블록의 self-attention 을 제거하는 이유는 CLS…