안녕하세요 유진님 질문 감사합니다. video level caption의 캡션은 비디오의 전역적인 정보를 담고 있어, 비디오의 전반적인 내용을 갖는다고 할 수 있습니다.…
안녕하세요. 너무 예전에 쓴 리뷰라 해당 논문이 100% 기억나진 않지만, 지금의 제 지식으로 어느 정도 설명드릴 순 있을 것 같습니다.…
안녕하세요 재찬님 좋은 논문 리뷰 감사합니다. 리뷰를 읽으면서 로봇 조작에 있어서 객체 중심의 위치뿐만 아니라 semantic orientation의 정보도 매우 중요하다는…
안녕하세요. 홍주영 연구원님 좋은 댓글 감사합니다. 저자도 localizer의 초기 성능의 중요성의 중요성을 언급하고 있긴합니다. 저자는 BLIP-2의 성능을 믿고 있기도하고(?) 추가적으로…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
안녕하세요 성준님 질문 감사합니다. 먼저 co-attention에서 서로 다른 모달리티가 들어와도 projection을 통해서 차원은 맞춰줄 수 있습니다. query-aware adaptive filtering은 단지…