안녕하세요. 비디오에서 프레임을 정해진 길이만큼 샘플링한 뒤 개별 프레임에 대해 visual token을 추출합니다. 그 뒤로 visual token들을 temporal axis로 평균을…
안녕하세요. 질문에 답을 드리면 1. 왜 실험에서 visual encoder의 token과 LLM의 visual token끼리 유사도 정량적 측정시 cos sim이 아닌 CKNNA를…
안녕하세요. 제가 기억하기로는 이론적인 분석은 없이 귀납적으로 증명했던 것으로 기억합니다. 라인이 구불구불하여 학습에 노이즈로 작동했다는 말의 의미를 제가 온전히 이해하지…
안녕하세요 석준님, 참관기 읽어주셔서 감사합니다. Video World Model은 저도 학회가서 처음 듣게 된 컨셉인데요. 제가 완벽히 이해하진 못해서, 부정확한 내용이…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
안녕하세요. Q1: 사전 지식이라 함이 정확히 무엇을 의미하는지는 이해못했으나, VLM을 학습하는데 있어서 결국에는 LLM과 Vision Encoder 부분을 다시 방대한 데이터로…