안녕하세요, 현우님. 좋은 리뷰 감사드립니다. 리뷰를 읽으면서 궁금한 점이 생겼습니다. Global–Local fusion 단계에서 두 feature는 attention 기반 정제 이후 단순…
안녕하세요 현우님 좋은 리뷰 감사합니다! co-attention에서 bi-modal attention은 스스로에 대한 self-attention과 타 모달리티와의 cross-attention의 평균을 낸 연산이라고 하였는데요 이 부분이…
안녕하세요 좋은 리뷰 감사합니다. 학습 과정은 아래와 같다고 이해하였는데, 이에 두 가지 질문이 있습니다. (1) SFT 단계: Video-R1-CoT-165k (Qwen2.5-VL이 만든…
안녕하세요 현우님! 좋은 리뷰 감사합니다. 질문 하나 드리고자 합니다. Local branch는 질문에 따라 필요한 정보를 동적으로 추출해야 하는 곳인데, 여기서…