좋은 질문 감사합니다. 말씀해주신 대로, DiscoVLA는 멀티모달 LLM인 LLaVA-NeXT를 활용해 프레임별 pseudo-caption을 생성하고 이를 정렬 학습에 활용하였습니다. 다만, 이 pseudo-caption의…
안녕하세요. 질문 감사합니다. 1. 본 모델에서 학습 과정은 합성 데이터셋으로 사전학습하는 과정과 real 데이터셋으로 파인튜닝 단계로 나뉘는데 논문에서는 두 학습과정에서…
안녕하세요 질문 남겨주셔서 감사합니다 논문에서는 CTR 데이터에 대한 결과와 비교하면서 STR의 경우 이미지 내 텍스트가 갖는 특징 자체가 보다 덜…
안녕하세요 정민님 깔끔한 리뷰 감사합니다. 말씀하신 것처럼 약간 지도학습기반으로 다시 회귀하는 점이 장점이자 단점이라고 생각할 수 있을 것 같습니다. 제가…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
좋은 포인트를 지적해주신 것 같네요. 말씀하신 내용처럼, DiscoVLA는 PImgAlign 모듈에서 멀티모달 LLM인 LLaVA-NeXT를 활용해 프레임 단위의 pseudo-caption을 생성하고, 이를 통해…