안녕하세요, 유진님. 좋은 리뷰 감사합니다. 저자의 다양한 실험 결과를 보면 VLM이 사전 학습된 지식에 상당히 편향되어 있음을 확인할 수 있었습니다.…
방법론 설명에서 “비디오 임베딩과 오디오 임베딩을 텍스트 조건부로 정렬한다”는 표현이 와닿지 않아 질문드립니다. 제가 이해하기로는, 텍스트와 비디오 인코더를 통해 임베딩을…
재밌는 논문 리뷰 감사합니다. VLM에게도 사람과 같이 사전 지식을 토대로 편향된 지식 추론 능력을 가지고 있음을 보이는 논문이네요. 해당 점점…
안녕하세요 인택님 리뷰 감사합니다. Dual encoder-decoder 구조,, 흥미롭네요. 이러한 coarse-> fine 구조가 로보틱스 쪽에서도 응용되고 있는지 궁금하네요. 혹시 이러한 구조가…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
저자는 noisy한 object가 학습 및 예측에 사용하는것을 방지하기 위해 필터링 목적으로 top-K 선택 연산을 도입하였습니다. 이 때 미분 불가능한 top-k…