안녕하세요 유진님 좋은 댓글 감사합니다. 답변 먼저 드리면 Language Modeling Loss는 Ground Truth caption과 직접적으로 유사해지도록 학습됩니다. Figure 4에 GT…
안녕하세요 상인님 좋은 댓글 감사합니다. 일단 region-level caption generation을 위한 object query는 시각적으로 조금 제한된 정보를 담고 있기 때문에 LLM…
안녕하세요 영규님 좋은 댓글 감사합니다. 저도 학습 초기에 마스크가 bbox 보다 더 예측에 유리하다라는 부분이 되게 흥미로웠습니다! 마스크로부터 bbox를 역으로…