[arXiv2023]VideoChat๐Ÿฆœ: Chat-Centric Video Understanding

๋ฌด์–ธ๊ฐ€๋ฅผ ์ดํ•ดํ•œ๋‹ค๋Š”๊ฒƒ์€ ์–ด๋–ป๊ฒŒ ์ •์˜ํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ €๋Š” ํŠน์ • ์ฝ˜ํ…์ธ ์— ๋Œ€ํ•œ ์ดํ•ด๋Š” ์ดํ•ด ์ฃผ์ฒด์˜ ๊ด€์ ์— ๋”ฐ๋ฅธ๋‹ค๊ณ  ์ƒ๊ฐํ•ด์™”์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ œ ๊ด€์ ์— ์•Œ๋งž์€ ๋…ผ๋ฌธ์„ ๋ฐœ๊ฒฌํ•˜๊ฒŒ ๋˜์–ด ๋ฆฌ๋ทฐ๋ฅผ ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ œ๊ฐ€ ์•Œ๊ธฐ๋กœ๋Š” ๊ด€๋ จ ์ดˆ๊ธฐ ์—ฐ๊ตฌ ์ค‘ ํ•˜๋‚˜๊ฐ€ NeurIPS2021์˜ Clip-it[paper]์ด๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. LLM์˜ ๋“ฑ์žฅ ์ดํ›„ ๊ด€๋ จ ์—ฐ๊ตฌ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ฐ”๋€Œ์—ˆ๋Š”์ง€ videochat์„ ํ†ตํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

### The summary

  • ๋…ผ๋ฌธ์˜ ํƒ€๊ฒŸ: end-to-end chat-centric video understanding system
  • ๊ตฌํ˜„ ๋ฐฉ๋ฒ•: video foundation model๊ณผ large language model์˜ ๊ฒฐํ•ฉ์œผ๋กœ ์ž์œ ๋„๋†’์€ ์ž์—ฐ์–ด ์ฟผ๋ฆฌ๋ฅผ ์œ„ํ•œ ์‹œ์Šคํ…œ ๊ตฌํ˜„
  • ๋…ผ๋ฌธ์˜ ์˜์˜: ๋…ผ๋ฌธ์€ chat-centric video unstanding์„ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ด๋ฅผ ํ•™์Šตํ•˜๊ณ  ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์˜€์œผ๋ฉฐ ์‹คํ—˜์„ ํ†ตํ•ด video applications์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ํ…Œ์Šคํฌ์— ์ œ์•ˆํ•œ ํ”„๋ ˆ์ž„์›Œํฌ(VideoChat๐Ÿฆœ)์ด ํšจ๊ณผ์ ์ผ ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•จ
๋ถ„ํ™์ƒ‰ ๋ฐ•์Šค์˜ ์•ต๋ฌด์ƒˆ๐Ÿฆœ ๊ฒฐ๊ณผ๊ฐ€ ์ œ์•ˆํ•œ videochat์˜ ๊ฒฐ๊ณผ

### The task

๋จผ์ € ๋…ผ๋ฌธ์ด ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ํ…Œ์Šคํฌ๋ฅผ ์†Œ๊ฐœํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์ด ์ค‘์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๋ฐ์ดํ„ฐ์˜ ํ˜•์‹์€ ๋น„๋””์˜ค์ž…๋‹ˆ๋‹ค. ๋น„๋””์˜ค๋Š” ์‚ฌ๋žŒ์ด ์‹œ๊ฐ์  ์„ธ๊ณ„๋ฅผ ์ธ์‹ํ•˜๋Š” ํ˜•ํƒœ์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํ‘œํ˜„๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ•ด๋‹น ๋ฐ์ดํ„ฐ ํฌ๋ฉง์„ ์ž˜ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์€ ์ฐจํ›„ human-robot interaction, ์ž์œจ์ฃผํ–‰, ์ง€๋Šฅํ˜•๊ฐ์‹œ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ๋“ฑ์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ (๋‹น์‹œ) ์ตœ์‹  ๋ฐฉ๋ฒ•๋ก ์€ ์ฃผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋‹ค๋ฃจ๋Š” ํ˜•์‹์œผ๋กœ ๊ณผ๋„ ๋‹จ์ˆœํ™” ๋“ฑ์— ์ธํ•œ ์ •๋ณด ์†์‹ค์ด ๋งŽ์•„ video-centric tasks ์ˆ˜ํ–‰์— ์ ์šฉ๋  ๋งŒํผ ๋ฐœ์ „ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ์œ„์™€ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ๋Œ€ํ™” ๊ธฐ๋ฐ˜์˜ ์‹œ์Šคํ…œ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค. video foundation model๊ณผ LLMs์„ ๊ฒฐํ•ฉํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ตœ์ดˆ๋กœ ์ œ์‹œํ•˜์˜€์œผ๋ฉฐ, ์•„ํ‚คํ…์ณ ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์‹œ๊ณต๊ฐ„ ์ธ์‹/์ถ”๋ก , ์ธ๊ณผ๊ด€๊ณ„ ์ถ”๋ก ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์œผ๋กœ ์šฐ์ˆ˜์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

### The position

ํ‚ค์›Œ๋“œ: Video Foundation Models, Large Language models, LLMs for Multimodal understanding

### Framework

videochat์€ ๋‹ค์–‘ํ•œ ์‹ค์ œ video application์— ์ ์šฉ๋˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ์‹ค์šฉ์  ์•„ํ‚คํ…์ณ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ videochat์€ ๋ฒ”์šฉ์„ฑ์„ ์œ„ํ•ด video-related tasks๋“ค์„ multiple-round video question answering์œผ๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋Œ€ํ™”๊ธฐ๋ฐ˜์œผ๋กœ QA(question answering)์„ ์ž˜ ์ˆ˜ํ–‰ํ•œ๋‹ค๋ฉด ๋‹ค์–‘ํ•œ ์‘์šฉํ”„๋กœ๊ทธ๋žจ์— ์‚ฌ์šฉ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•๋ก ์ด ๋˜๋Š”๊ฒƒ์ด์ง€์š”.

Figure1์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋“ฏ์ด VideoChat์€ ํ…์ŠคํŠธ ๋„๋ฉ”์ธ(videochat-text)๊ณผ ๋”์šฑ ๋‹ค์–‘ํ•œ ์ •๋ณด๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ๋Š” ์ž„๋ฒ ๋”ฉ ๋„๋ฉ”์ธ(videochat-embed)์— ๊ด€๋ จ๋œ ๋‘๊ฐ€์ง€ ๊ฒฝ๋กœ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋จผ์ € videochat-text์˜ ๊ฒฝ์šฐ ๋จผ์ € internvideo, Tag2text, GRiT๋ฅผ ํ†ตํ•ด ๋น„๋””์˜ค ๋‚ด์˜ action, object ๋“ฑ์˜ ์ •๋ณด๋ฅผ ํ…์ŠคํŠธ๋กœ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ whisper ๋ชจ๋ธ์„ ํ†ตํ•ด ์ž๋ง‰ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๊ฒŒ ๋˜๋ฉฐ, ํ•ด๋‹น ํ…์ŠคํŠธ๋ฅผ ์‚ฌ์ „ํ•™์Šต๋œ ์–ธ์–ด๋ชจ๋ธ์ธ T5๋กœ ๋ช…ํ™•๋„๋ฅผ ๊ฐœ์„ ํ•ด ํ’์„ฑํ•˜๊ฒŒ ๊ฐœ์„ ๋œ video description์„ ์ƒ์„ฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ดํ›„ ์œ„ ๋ฐฉ์‹์œผ๋กœ ํ…์ŠคํŠธ๋œ ๋น„๋””์˜ค ํ‘œํ˜„์„ Table2์˜ ํ”„๋กฌํ”„ํŠธ๋กœ LLM์— ์ž…๋ ฅ๋˜์–ด QA๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ videochat-embed์˜ ๊ฒฝ์šฐ๋Š” ์œ„์™€ ๋‹ค๋ฅด๊ฒŒ ์ž„๋ฒ ๋”ฉ์˜ ํ˜•ํƒœ๋กœ LLM์—๊ฒŒ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒฝ๋กœ ์ž…๋‹ˆ๋‹ค. ์•„ํ‚คํ…์ณ๋Š” Figure2์˜ (a)์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ViT-G ๋กœ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ž„๋ฒ ๋”ฉํ•œ ํ›„ InternVideo์˜ temporal modeling module์ธ GMHRA(Global Multi-Head Relation Aggregator)๋กœ ๋ชจ๋ธ๋ง์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ํ•ด๋‹น ์ž…๋ ฅ์„ QFormer๋ฅผ ํ†ตํ•ด LLM์˜ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ํ•™์Šตํ•˜๋Š” ๋ ˆ์ด์–ด๋Š” ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด GMHRA, QFormer ์ถœ๋ ฅ๋‹จ์˜ ์ถ”๊ฐ€๋œ linear projection์ž…๋‹ˆ๋‹ค.

### Training

ํ•™์Šต์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ๋“ค๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ 2๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. stage 1์—์„œ๋Š” ๋น„๋””์˜ค ํ‘œํ˜„์„ LLM์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก alignment ๋ฅผ ์œ„ํ•œ ๋‹จ๊ณ„์ด๋ฉฐ stage 2์—์„œ๋Š” ์กฐ๊ธˆ๋” ์„ธ๋ถ€์ ์ธ ์ž‘์—…์„ ์œ„ํ•œ instruction tuning ๋‹จ๊ณ„ ์ž…๋‹ˆ๋‹ค.

stage1์„ ์œ„ํ•ด์„œ ๋น„๋””์˜ค๋ฅผ ํ†ตํ•ด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๊ณ , ํ•ด๋‹น ๋ฌธ์žฅ์ด ์ •๋‹ต ๋ฌธ์žฅ๊ฐ€ ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ํ•˜๋Š” contrastive learning์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต์„ ์œ„ํ•ด ์•„๋ž˜๋ฅผ ์ž…๋ ฅ์œผ๋กœ ํ•˜๊ณ 

  • ###Human: <Video>video_embed</Video> video_instruction ###Assistant:
  • ###Human: <Image>image_embed</Image> image_instruction ###Assistant:

์ถœ๋ ฅ๋œ ๋ฌธ์žฅ์ด ์ •๋‹ต๋ฌธ์žฅ๊ณผ ์œ ์‚ฌํ•ด์ง€๋„๋ก ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋•Œ image_instruction๊ณผ video_instruction์˜ ๊ฒฝ์šฐ Table8์— ๋ฌธ์žฅ ์ค‘ ํ•˜๋‚˜๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  video_embed์™€ image_embed๋Š” ์œ„์—์„œ ์„ค๊ณ„ํ•œ(Figure 2(1)) ์•„ํ‚คํ…์ณ์˜ ์ž…๋ ฅ์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ ์„ธ๋ถ€์  ํ•™์Šต์„ ์œ„ํ•œ instruction tuning์€ ์œ„์ฒ˜๋Ÿผ ์˜์ƒ/์ด๋ฏธ์ง€ ์ „์ฒด์— ๋Œ€ํ•œ ๋งฅ๋ฝ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํ”„๋ ˆ์ž„ ๋‹จ์œ„์˜ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์žฅ์ž…๋‹ˆ๋‹ค: โ€œThe video contains T frames sampled at t0, t1, โ€ฆ, tT seconds.โ€

### Experiments

์‹คํ—˜์€ ์ •์„ฑ์  ๋ถ„์„์œผ๋กœ ๋ฆฌํฌํŒ… ๋˜์—ˆ์œผ๋ฉฐ LLaA, miniGPT-4, mPLUG-owl ๋ชจ๋ธ๊ณผ ๋น„๊ต๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋จผ์ € ์ž๊ฐ€ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์— ๋Œ€ํ•ด ๋‹ค๋ฃฌ ์ •์„ฑ์  ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

1)๊ณต๊ฐ„์— ๋Œ€ํ•œ ์ธ์‹ ๋Šฅ๋ ฅ:

๋ชจ๋ธ์˜ ๋น„๋””์˜ค์—์„œ ๊ณต๊ฐ„์— ๋Œ€ํ•œ ์ธ์‹ ๋Šฅ๋ ฅ์ด ์žˆ์Œ์€ Figure7๊ณผ 10์˜ ์˜ˆ์‹œ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ™•๋Œ€ํ•ด์„œ ๋ณด๋ฉด figure7์˜ ๊ฒฝ์šฐ ์˜์ƒ์—์„œ ์ผ๋ณธ ์Šคํƒ€์ผ์˜ ์˜ท๊ณผ 3๋ช…์˜ ์‚ฌ๋žŒ์ด๋ผ๋Š” ๊ฐ์ฒด์ธ์‹์ด ๊ฐ€๋Šฅํ•จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. figure10์˜ ๊ฒฝ์šฐ ๋ฐˆ์ด ์™œ ์›ƒ๊ธด์ง€๋ฅผ ์‹œ๊ฐ์  ์ •๋ณด์™€ ํ•จ๊ป˜ ์„ค๋ช…ํ•˜๋Š”๊ฒƒ์„ ํ†ตํ•ด ์ด๋ฏธ์ง€ ๋‚ด์˜ ์ •๋ณด๋ฅผ ์ž˜ ํ™œ์šฉํ•˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2)์‹œ๊ฐ„์  ์ธ์‹ ๋Šฅ๋ ฅ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ

๋˜ํ•œ Videochat-embed๋ชจ๋ธ์ด ์‹œ๊ฐ„์  ์ธ์‹ ๋Šฅ๋ ฅ์ด ์žˆ์Œ์€ ์•„๋ž˜์˜ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ํ™•์ธ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Figure5๋ฅผ ๋ณด๋ฉด ๋ชจ๋ธ์€ ๋น„๋””์˜ค๋งŒ ๋ณด๊ณ  ๋‚จ์„ฑ์ด ์ถค์„ ์ถ”๊ณ  ์žˆ๋Š” ์•ก์…˜์„ ์ž˜ ์ธ์‹ํ•˜์˜€์œผ๋ฉฐ, ๋žœ๋คํ•˜๊ณ  ๊ธ‰์ž‘์Šค๋Ÿฝ๊ฒŒ ์ถค์„ ์‹œ์ž‘ํ–ˆ๋‹ค๋Š” ๋งฅ๋ฝ์  ์ •๋ณด๋„ ํŒŒ์•…ํ•˜๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ธ์‹์€ videochat-text๋กœ๋„ ์ž˜ ๋™์ž‘ํ•จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(yoga ๋™์ž‘์„ ์ž˜ ๊ฐ์ง€)

3) ์ธ๊ณผ์ถ”๋ก  ๋Šฅ๋ ฅ

๋ชจ๋ธ์ด ๊ณต๊ฐ„/์‹œ๊ฐ„์  ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•ด ๋‹ต๋ณ€ํ•  ์ˆ˜ ์žˆ์„ ๋ฟ ๋งŒ ์•„๋‹ˆ๋ผ ์ธ๊ณผ๊ด€๊ณ„์— ๋Œ€ํ•œ ์ดํ•ด๋Šฅ๋ ฅ๋„ ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ € ์œ„์˜ Figure5 ์˜ˆ์‹œ๋ฅผ ์‚ดํ”ผ๋ฉด ์˜์ƒ์ด ์›ƒ๊ธด ์ด์œ ๊ฐ€ ์˜์ƒ์† ์‚ฌ๋žŒ์˜ ์›€์ง์ž„์ด ๋œฌ๊ธˆ์—†๊ณ  ์ด์ƒํ•จํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜ˆ์ƒ์™ธ์˜ ์›€์ง์ž„์ด ์›ƒ์Œ์„ ์ค€๋‹ค๊ณ  ๋‹ต๋ณ€ํ•ฉ๋‹ˆ๋‹ค. (click here๊ฐ€ ๋™์ž‘ํ•˜์ง€ ์•Š์•„ ์˜์ƒ์€ ํ™•์ธํ•˜์ง€ ๋ชปํ–ˆ์ง€๋งŒ ๋…ผ๋ฌธ์— ๋ง์— ๋”ฐ๋ฅด๋ฉด) ํ• ๋ฃจ์‹œ๋„ค์ด์…˜์ด ์•„๋‹ˆ๋ผ ์‹ค์ œ ์˜์ƒ์„ ๋ถ„์„ํ•˜๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ์›ƒ๊ธฐ๋‹ค๊ณ  ๋‹ต๋ณ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ํ›„๋ณด๊ฐ€ ์•„๋‹Œ ์˜์ƒ์˜ ์‹ค์ œ ์›€์ง์ž„์„ ์ง€์ ํ•˜๊ณ  ์žˆ์Œ์„ ๋†’๊ฒŒ์‚ฐ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ ์™ธ์— Figure6์—์„œ๋„ ์ฐจ๋Ÿ‰ ์ถฉ๋Œ๋กœ์ธํ•ด ๋ฒˆํ˜ธํŒ์ด ์†์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์ถฉ๋Œ์ด ์‚ฌ๊ณ ์˜ ์›์ธ์ด๋ผ๋Š” ์ธ๊ณผ ๊ด€๊ณ„ ํŒŒ์•…์„ ์ž˜ ํ•˜๊ณ ์žˆ๊ณ , Figure7์—์„œ๋„ ์˜์ƒ์—์„œ ์†Œ๋…€๋“ค์˜ ์ถค์˜ ๋ฆฌ๋“ฌ๊ณผ ์žฅ๋ฉด์˜ ๋ถ„์œ„๊ธฐ๋ฅผ ํ†ตํ•ด ๋ฐ๊ณ  ์ฆ๊ฑฐ์šด ์Œ์•…์ด ์–ด์šธ๋ฆฐ๋‹ค๋Š” ์ธ๊ณผ๊ด€๊ณ„์— ๋Œ€ํ•œ ์ดํ•ด๊ฐ€ ํ•„์š”ํ•œ ์ถ”๋ก ์„ ์ž˜ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต๋„ ์ •์„ฑ์ ์œผ๋กœ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋ฆฌํฌํŒ…ํ•˜์˜€์œผ๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

4) ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต

๊ฒฐ๊ณผ๋Š” Figure3๊ณผ ๊ฐ™์€๋ฐ ๋น„๊ต ๋ชจ๋ธ๋“ค์ด ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๋ฅผ videochat์€ ํ•ด๊ฒฐ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ค‘๊ฐ„์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด๋ฉด ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์ง์—๋„ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜์ง€๋งŒ ์ œ์•ˆ ๋ฐฉ๋ฒ•์€ ํ•ด๊ฒฐํ•˜๊ณ  ์žˆ๋Š”๋ฐ์š”, ๊ทธ ์ด์œ ๋กœ ๊ธฐ์กด ๋ชจ๋ธ์€ ํ”„๋ ˆ์ž„ ๋‹จ์œ„๋กœ ์ž…๋ ฅ๋ฐ›์ง€๋งŒ ์ œ์•ˆ๋œ ๋ชจ๋ธ์€ temporal information์„ ํ™œ์šฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋งฅ๋ฝ์  ์ดํ•ด๊ฐ€ ๊ฐ•ํ™”๋˜์–ด ํ•ด๊ฒฐ ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ œ์•ˆ๋œ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ videochat-embed๋‚˜ videochat-text ๋ชจ๋‘๊ฐ€ ์˜ˆ์ธก์— ์„ฑ๊ณตํ•จ์„ ๋ณด์ด๋ฉด์„œ ๋‘ ์ ‘๊ทผ๋ฒ•์ด ๋ชจ๋‘ ๊ณต๊ฐ„์  ์ดํ•ด๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”์—ˆ์œผ๋ฉฐ ์šฐ์ˆ˜ํ•จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

### Limitations

์ œ์•ˆ๋œ ๋ชจ๋ธ์€ 1๋ถ„ ๋ฏธ๋งŒ์˜ ์˜์ƒ์„ ๋‹ค๋ฃจ๋ฉฐ long-term ๋น„๋””์˜ค๋ฅผ ๋‹ค๋ฃจ๊ธฐ์—๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์œผ๋ฉฐ, ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ๋ถ€์กฑํ•˜์—ฌ ์‹œ๊ฐ„์  ์ธ๊ณผ์  ์ดํ•ด๊ฐ€ ์•„์ง ์™„์ „ํžˆ ๊ณ ๋„ํ™” ๋˜์ง€ ์•Š์•˜๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹œ๊ฐ„์— ๋”์šฑ ๋ฏผ๊ฐํ•˜๊ณ  ์„ฑ๋Šฅ์„ ์œ„ํ•œ ์‹ค์šฉ์  ๋ชจ๋ธ ๊ฐœ๋ฐœ์€ ์•„์ง ๊ด€๋ฌธ์ด ๋‚จ์•„์žˆ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.


๋…ผ๋ฌธ์˜ ๋ฆฌ๋ทฐ๋ฅผ ๋งˆ์น˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์˜ ์žฌํ˜„์„ฑ ๋“ฑ์—๋Š” ์•„์‰ฌ์›€์ด ์žˆ์ง€๋งŒ, videochat์˜ ์ƒˆ๋กœ์šด ๋ฒ„์ „๋“ค์ด ๋‚˜์˜ค๋ฉด์„œ ๋‹ค์–‘ํ•œ ๋ฐด์น˜๋งˆํฌ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฑฐ๋‘๊ณ  ์žˆ๋Š” ๋งŒํผ, ํŒ”๋กœ์šฐ์—…ํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋„ค์š”. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. [๊นƒํ—ˆ๋ธŒ ๋งํฌ]

2 thoughts on “[arXiv2023]VideoChat๐Ÿฆœ: Chat-Centric Video Understanding

  1. ์•ˆ๋…•ํ•˜์„ธ์š” ์œ ์ง„๋‹˜ ์ข‹์€ ๋ฆฌ๋ทฐ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค!
    fig2(a) ์„ค๋ช…์„ ๋ณด๋ฉด VideoChat-text๋Š” ๋น„๋””์˜ค๋ฅผ ํ…์ŠคํŠธ ์„ค๋ช…์œผ๋กœ ๋ฐ”๊ฟ” ๋„ฃ๊ณ , VideoChat-embed๋Š” ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์ง์ ‘ ๋„ฃ๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ์ดํ•ดํ–ˆ์Šต๋‹ˆ๋‹ค.
    ๊ทธ๋ ‡๋‹ค๋ฉด text ๊ฒฝ๋กœ๋Š” ๊ฒฐ๊ตญ ๋น„๋””์˜ค๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ฐ”๊พธ๋Š” ๋ฐฉ์‹์ธ๋ฐ, ๋…ผ๋ฌธ ์ดˆ๋ฐ˜์—์„œ ๋งํ•œ ๋น„๋””์˜ค ์ •๋ณด ์†์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๋Š” ๋ฐ๋„ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ด์•ผ ํ• ๊นŒ์š”?

  2. ์•ˆ๋…•ํ•˜์„ธ์š” ์œ ์ง„๋‹˜ ์ข‹์€ ๋ฆฌ๋ทฐ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
    ๋…ผ๋ฌธ์—์„œ VideoChat-text์™€ VideoChat-embed ๋‘ ๊ฒฝ๋กœ๋ฅผ ๋ชจ๋‘ ์ œ์•ˆํ•œ ์ ์ด ํฅ๋ฏธ๋กœ์› ์Šต๋‹ˆ๋‹ค.
    ๋‹ค๋งŒ text ๊ฒฝ๋กœ๋Š” ๊ฒฐ๊ตญ ๋น„๋””์˜ค๋ฅผ ์„ค๋ช…๋ฌธ์œผ๋กœ ๋ฐ”๊พธ๋Š” ๋ฐฉ์‹์ด๋ผ, ์„ธ๋ฐ€ํ•œ ์‹œ๊ฐ„ ์ •๋ณด๋‚˜ ๋งฅ๋ฝ ์ •๋ณด๊ฐ€ ์ค„์–ด๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์€๋ฐ,
    ์ €์ž๋“ค์ด ์™œ ๋‘ ๊ฒฝ๋กœ๋ฅผ ๋ชจ๋‘ ์œ ์ง€ํ–ˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ๋กœ๋Š” ์–ด๋–ค ์ข…๋ฅ˜์˜ ์งˆ๋ฌธ์—์„œ embed ๊ฒฝ๋กœ๊ฐ€ ๋” ์œ ๋ฆฌํ–ˆ๋Š”์ง€์— ๋Œ€ํ•œ ๋ถ„์„๋„ ์žˆ์—ˆ๋Š”์ง€ ๊ถ๊ธˆํ•ฉ๋‹ˆ๋‹ค.

    ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

Leave a Reply to ํ™ฉ ์ฐฌ๋ฏธ Cancel reply

Your email address will not be published.