안녕하세요. 황유진 연구원님 좋은 댓글 감사합니다. 키프레임의 경우 저자는 단순하게 자연어 쿼리와의 유사도를 기반으로 추출하고 있습니다. 다만, BLIP-2 자체에도 이미지-텍스트…
안녕하세요. 현우님 좋은 댓글 감사합니다. 네, 현우님이 댓글에 남겨주신 것처럼 Table 3에서 A와 B는 샘플링하는 프레임수가 32개와 4개로 sparse하게 샘플링했을…