๋ฌด์ธ๊ฐ๋ฅผ ์ดํดํ๋ค๋๊ฒ์ ์ด๋ป๊ฒ ์ ์ํ ์ ์์๊น์? ์ ๋ ํน์ ์ฝํ ์ธ ์ ๋ํ ์ดํด๋ ์ดํด ์ฃผ์ฒด์ ๊ด์ ์ ๋ฐ๋ฅธ๋ค๊ณ ์๊ฐํด์์ต๋๋ค. ์ด๋ฌํ ์ ๊ด์ ์ ์๋ง์ ๋ ผ๋ฌธ์ ๋ฐ๊ฒฌํ๊ฒ ๋์ด ๋ฆฌ๋ทฐ๋ฅผ ํ๊ฒ ๋์์ต๋๋ค. ์ ๊ฐ ์๊ธฐ๋ก๋ ๊ด๋ จ ์ด๊ธฐ ์ฐ๊ตฌ ์ค ํ๋๊ฐ NeurIPS2021์ Clip-it[paper]์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. LLM์ ๋ฑ์ฅ ์ดํ ๊ด๋ จ ์ฐ๊ตฌ๊ฐ ์ด๋ป๊ฒ ๋ฐ๋์๋์ง videochat์ ํตํด ์์๋ณด๊ฒ ์ต๋๋ค.
### The summary
- ๋ ผ๋ฌธ์ ํ๊ฒ: end-to-end chat-centric video understanding system
- ๊ตฌํ ๋ฐฉ๋ฒ: video foundation model๊ณผ large language model์ ๊ฒฐํฉ์ผ๋ก ์์ ๋๋์ ์์ฐ์ด ์ฟผ๋ฆฌ๋ฅผ ์ํ ์์คํ ๊ตฌํ
- ๋ ผ๋ฌธ์ ์์: ๋ ผ๋ฌธ์ chat-centric video unstanding์ ์ํ ํ๋ ์์ํฌ์ ์ด๋ฅผ ํ์ตํ๊ณ ๊ฒ์ฆํ๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์์ผ๋ฉฐ ์คํ์ ํตํด video applications์ ์ํ ๋ค์ํ ํ ์คํฌ์ ์ ์ํ ํ๋ ์์ํฌ(VideoChat๐ฆ)์ด ํจ๊ณผ์ ์ผ ์ ์์์ ์ฆ๋ช ํจ

### The task
๋จผ์ ๋ ผ๋ฌธ์ด ํด๊ฒฐํ๊ณ ์ ํ๋ ํ ์คํฌ๋ฅผ ์๊ฐํ๊ฒ ์ต๋๋ค. ๋ ผ๋ฌธ์ด ์ค์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ฐ์ดํฐ์ ํ์์ ๋น๋์ค์ ๋๋ค. ๋น๋์ค๋ ์ฌ๋์ด ์๊ฐ์ ์ธ๊ณ๋ฅผ ์ธ์ํ๋ ํํ์ ๊ฐ์ฅ ๊ฐ๊น์ด ํํ๋ฐฉ์์ ๋๋ค. ๋ฐ๋ผ์ ํด๋น ๋ฐ์ดํฐ ํฌ๋ฉง์ ์ ๋ค๋ฃจ๋ ๊ฒ์ ์ฐจํ human-robot interaction, ์์จ์ฃผํ, ์ง๋ฅํ๊ฐ์์์คํ ๊ฐ๋ฐ๋ฑ์ ํ์์ ์ ๋๋ค. ๊ทธ๋ฌ๋ (๋น์) ์ต์ ๋ฐฉ๋ฒ๋ก ์ ์ฃผ๋ก ์ด๋ฏธ์ง๋ฅผ ํ ์คํธ๋ก ๋ณํํ์ฌ ๋ค๋ฃจ๋ ํ์์ผ๋ก ๊ณผ๋ ๋จ์ํ ๋ฑ์ ์ธํ ์ ๋ณด ์์ค์ด ๋ง์ video-centric tasks ์ํ์ ์ ์ฉ๋ ๋งํผ ๋ฐ์ ํ์ง ๋ชปํ์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๋ํ ๊ธฐ๋ฐ์ ์์คํ ์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ์ต๋๋ค. video foundation model๊ณผ LLMs์ ๊ฒฐํฉํ ์ํคํ ์ฒ๋ฅผ ์ต์ด๋ก ์ ์ํ์์ผ๋ฉฐ, ์ํคํ ์ณ ํ์ต์ ์ํ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. ๋ํ ์ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ์๊ณต๊ฐ ์ธ์/์ถ๋ก , ์ธ๊ณผ๊ด๊ณ ์ถ๋ก ์์ ์ฐ์ํ ์ฑ๋ฅ์ผ๋ก ์ฐ์์ฑ์ ๋ณด์์ต๋๋ค.
### The position
ํค์๋: Video Foundation Models, Large Language models, LLMs for Multimodal understanding
### Framework

videochat์ ๋ค์ํ ์ค์ video application์ ์ ์ฉ๋๊ธฐ ์ํด ์ ์๋ ์ค์ฉ์ ์ํคํ ์ณ์ ๋๋ค. ์ด๋ฌํ videochat์ ๋ฒ์ฉ์ฑ์ ์ํด video-related tasks๋ค์ multiple-round video question answering์ผ๋ก ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ํ๊ธฐ๋ฐ์ผ๋ก QA(question answering)์ ์ ์ํํ๋ค๋ฉด ๋ค์ํ ์์ฉํ๋ก๊ทธ๋จ์ ์ฌ์ฉ๊ฐ๋ฅํ ๋ฐฉ๋ฒ๋ก ์ด ๋๋๊ฒ์ด์ง์.

Figure1์์ ํ์ธํ ์ ์๋ฏ์ด VideoChat์ ํ ์คํธ ๋๋ฉ์ธ(videochat-text)๊ณผ ๋์ฑ ๋ค์ํ ์ ๋ณด๋ฅผ ํฌํจํ ์ ์๋ ์๋ฒ ๋ฉ ๋๋ฉ์ธ(videochat-embed)์ ๊ด๋ จ๋ ๋๊ฐ์ง ๊ฒฝ๋ก๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋จผ์ videochat-text์ ๊ฒฝ์ฐ ๋จผ์ internvideo, Tag2text, GRiT๋ฅผ ํตํด ๋น๋์ค ๋ด์ action, object ๋ฑ์ ์ ๋ณด๋ฅผ ํ ์คํธ๋ก ์ถ์ถํฉ๋๋ค. ๋ํ whisper ๋ชจ๋ธ์ ํตํด ์๋ง ์ ๋ณด๋ฅผ ํตํฉํ๊ฒ ๋๋ฉฐ, ํด๋น ํ ์คํธ๋ฅผ ์ฌ์ ํ์ต๋ ์ธ์ด๋ชจ๋ธ์ธ T5๋ก ๋ช ํ๋๋ฅผ ๊ฐ์ ํด ํ์ฑํ๊ฒ ๊ฐ์ ๋ video description์ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ดํ ์ ๋ฐฉ์์ผ๋ก ํ ์คํธ๋ ๋น๋์ค ํํ์ Table2์ ํ๋กฌํํธ๋ก LLM์ ์ ๋ ฅ๋์ด QA๋ฅผ ์ํํฉ๋๋ค.

๋ค์์ผ๋ก videochat-embed์ ๊ฒฝ์ฐ๋ ์์ ๋ค๋ฅด๊ฒ ์๋ฒ ๋ฉ์ ํํ๋ก LLM์๊ฒ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒฝ๋ก ์ ๋๋ค. ์ํคํ ์ณ๋ Figure2์ (a)์ ๊ฐ์ต๋๋ค. ViT-G ๋ก ์๊ฐ ์ ๋ณด๋ฅผ ์๋ฒ ๋ฉํ ํ InternVideo์ temporal modeling module์ธ GMHRA(Global Multi-Head Relation Aggregator)๋ก ๋ชจ๋ธ๋ง์ ์ํํฉ๋๋ค. ํด๋น ์ ๋ ฅ์ QFormer๋ฅผ ํตํด LLM์ ์ ๋ ฅ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ ํ์ตํ๋ ๋ ์ด์ด๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด GMHRA, QFormer ์ถ๋ ฅ๋จ์ ์ถ๊ฐ๋ linear projection์ ๋๋ค.
### Training
ํ์ต์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ์ ์ฌํ๊ฒ 2๋จ๊ณ๋ก ์งํ๋์์ต๋๋ค. stage 1์์๋ ๋น๋์ค ํํ์ LLM์ด ์ดํดํ ์ ์๋๋ก alignment ๋ฅผ ์ํ ๋จ๊ณ์ด๋ฉฐ stage 2์์๋ ์กฐ๊ธ๋ ์ธ๋ถ์ ์ธ ์์ ์ ์ํ instruction tuning ๋จ๊ณ ์ ๋๋ค.
stage1์ ์ํด์ ๋น๋์ค๋ฅผ ํตํด ๋ฌธ์ฅ์ ์์ฑํ๊ณ , ํด๋น ๋ฌธ์ฅ์ด ์ ๋ต ๋ฌธ์ฅ๊ฐ ๊ฐ๊น์์ง๋๋ก ํ๋ contrastive learning์ ์งํํฉ๋๋ค. ํ์ต์ ์ํด ์๋๋ฅผ ์ ๋ ฅ์ผ๋ก ํ๊ณ
- ###Human: <Video>video_embed</Video> video_instruction ###Assistant:
- ###Human: <Image>image_embed</Image> image_instruction ###Assistant:
์ถ๋ ฅ๋ ๋ฌธ์ฅ์ด ์ ๋ต๋ฌธ์ฅ๊ณผ ์ ์ฌํด์ง๋๋ก ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ image_instruction๊ณผ video_instruction์ ๊ฒฝ์ฐ Table8์ ๋ฌธ์ฅ ์ค ํ๋๋ฅผ ์ฌ์ฉํ๊ณ video_embed์ image_embed๋ ์์์ ์ค๊ณํ(Figure 2(1)) ์ํคํ ์ณ์ ์ ๋ ฅ์ ๋๋ค.

๋ค์์ผ๋ก ์ธ๋ถ์ ํ์ต์ ์ํ instruction tuning์ ์์ฒ๋ผ ์์/์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ ๋งฅ๋ฝ์ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ํ๋ ์ ๋จ์์ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ฅ์ ๋๋ค: โThe video contains T frames sampled at t0, t1, โฆ, tT seconds.โ
### Experiments
์คํ์ ์ ์ฑ์ ๋ถ์์ผ๋ก ๋ฆฌํฌํ ๋์์ผ๋ฉฐ LLaA, miniGPT-4, mPLUG-owl ๋ชจ๋ธ๊ณผ ๋น๊ต๋์์ต๋๋ค.
๋จผ์ ์๊ฐ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๋ํด ๋ค๋ฃฌ ์ ์ฑ์ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ์ต๋๋ค.
1)๊ณต๊ฐ์ ๋ํ ์ธ์ ๋ฅ๋ ฅ:
๋ชจ๋ธ์ ๋น๋์ค์์ ๊ณต๊ฐ์ ๋ํ ์ธ์ ๋ฅ๋ ฅ์ด ์์์ Figure7๊ณผ 10์ ์์์์ ํ์ธํ ์ ์์ต๋๋ค. ํ๋ํด์ ๋ณด๋ฉด figure7์ ๊ฒฝ์ฐ ์์์์ ์ผ๋ณธ ์คํ์ผ์ ์ท๊ณผ 3๋ช ์ ์ฌ๋์ด๋ผ๋ ๊ฐ์ฒด์ธ์์ด ๊ฐ๋ฅํจ์ ํ์ธํ ์ ์์ต๋๋ค. figure10์ ๊ฒฝ์ฐ ๋ฐ์ด ์ ์๊ธด์ง๋ฅผ ์๊ฐ์ ์ ๋ณด์ ํจ๊ป ์ค๋ช ํ๋๊ฒ์ ํตํด ์ด๋ฏธ์ง ๋ด์ ์ ๋ณด๋ฅผ ์ ํ์ฉํ๊ณ ์์์ ํ์ธํ ์ ์์ต๋๋ค.


2)์๊ฐ์ ์ธ์ ๋ฅ๋ ฅ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ
๋ํ Videochat-embed๋ชจ๋ธ์ด ์๊ฐ์ ์ธ์ ๋ฅ๋ ฅ์ด ์์์ ์๋์ ์์๋ฅผ ํตํด ํ์ธ ํ ์ ์์ต๋๋ค. Figure5๋ฅผ ๋ณด๋ฉด ๋ชจ๋ธ์ ๋น๋์ค๋ง ๋ณด๊ณ ๋จ์ฑ์ด ์ถค์ ์ถ๊ณ ์๋ ์ก์ ์ ์ ์ธ์ํ์์ผ๋ฉฐ, ๋๋คํ๊ณ ๊ธ์์ค๋ฝ๊ฒ ์ถค์ ์์ํ๋ค๋ ๋งฅ๋ฝ์ ์ ๋ณด๋ ํ์ ํ๊ณ ์์์ ์ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ธ์์ videochat-text๋ก๋ ์ ๋์ํจ์ ํ์ธํ ์ ์์ต๋๋ค(yoga ๋์์ ์ ๊ฐ์ง)


3) ์ธ๊ณผ์ถ๋ก ๋ฅ๋ ฅ
๋ชจ๋ธ์ด ๊ณต๊ฐ/์๊ฐ์ ๋งฅ๋ฝ์ ํ์ ํด ๋ต๋ณํ ์ ์์ ๋ฟ ๋ง ์๋๋ผ ์ธ๊ณผ๊ด๊ณ์ ๋ํ ์ดํด๋ฅ๋ ฅ๋ ์์์ ํ์ธํ ์ ์์ต๋๋ค. ๋จผ์ ์์ Figure5 ์์๋ฅผ ์ดํผ๋ฉด ์์์ด ์๊ธด ์ด์ ๊ฐ ์์์ ์ฌ๋์ ์์ง์์ด ๋ฌ๊ธ์๊ณ ์ด์ํจํ๊ธฐ ๋๋ฌธ์ ์์์ธ์ ์์ง์์ด ์์์ ์ค๋ค๊ณ ๋ต๋ณํฉ๋๋ค. (click here๊ฐ ๋์ํ์ง ์์ ์์์ ํ์ธํ์ง ๋ชปํ์ง๋ง ๋ ผ๋ฌธ์ ๋ง์ ๋ฐ๋ฅด๋ฉด) ํ ๋ฃจ์๋ค์ด์ ์ด ์๋๋ผ ์ค์ ์์์ ๋ถ์ํ๊ณ ์์์ ์ ์ ์๋ค๊ณ ํฉ๋๋ค. ์ฆ ์๊ธฐ๋ค๊ณ ๋ต๋ณํ ์ ์๋ ๋ค์ํ ํ ๋ฃจ์๋ค์ด์ ํ๋ณด๊ฐ ์๋ ์์์ ์ค์ ์์ง์์ ์ง์ ํ๊ณ ์์์ ๋๊ฒ์ฐ๋ค๋ ๊ฒ์ ๋๋ค. ๊ทธ ์ธ์ Figure6์์๋ ์ฐจ๋ ์ถฉ๋๋ก์ธํด ๋ฒํธํ์ด ์์๋์์ผ๋ฉฐ, ์ถฉ๋์ด ์ฌ๊ณ ์ ์์ธ์ด๋ผ๋ ์ธ๊ณผ ๊ด๊ณ ํ์ ์ ์ ํ๊ณ ์๊ณ , Figure7์์๋ ์์์์ ์๋ ๋ค์ ์ถค์ ๋ฆฌ๋ฌ๊ณผ ์ฅ๋ฉด์ ๋ถ์๊ธฐ๋ฅผ ํตํด ๋ฐ๊ณ ์ฆ๊ฑฐ์ด ์์ ์ด ์ด์ธ๋ฆฐ๋ค๋ ์ธ๊ณผ๊ด๊ณ์ ๋ํ ์ดํด๊ฐ ํ์ํ ์ถ๋ก ์ ์ ์ํํ๊ณ ์์์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.

๋ค์์ผ๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต๋ ์ ์ฑ์ ์ผ๋ก ๊ฐ๋จํ๊ฒ ๋ฆฌํฌํ ํ์์ผ๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ์ต๋๋ค.
4) ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต
๊ฒฐ๊ณผ๋ Figure3๊ณผ ๊ฐ์๋ฐ ๋น๊ต ๋ชจ๋ธ๋ค์ด ํด๊ฒฐํ์ง ๋ชปํ๋ ๋ฌธ์ ๋ฅผ videochat์ ํด๊ฒฐ ํ ์ ์์์ ๋ณด์ด๊ณ ์์ต๋๋ค. ์ค๊ฐ์ ์์๋ฅผ ๋ณด๋ฉด ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง์๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํด๊ฒฐํ์ง ๋ชปํ์ง๋ง ์ ์ ๋ฐฉ๋ฒ์ ํด๊ฒฐํ๊ณ ์๋๋ฐ์, ๊ทธ ์ด์ ๋ก ๊ธฐ์กด ๋ชจ๋ธ์ ํ๋ ์ ๋จ์๋ก ์ ๋ ฅ๋ฐ์ง๋ง ์ ์๋ ๋ชจ๋ธ์ temporal information์ ํ์ฉํ๋๋ก ์ค๊ณ๋์๊ธฐ ๋๋ฌธ์ ๋งฅ๋ฝ์ ์ดํด๊ฐ ๊ฐํ๋์ด ํด๊ฒฐ ํ ์ ์์๋ค๊ณ ์ค๋ช ํฉ๋๋ค. ๋ํ ์ ์๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ videochat-embed๋ videochat-text ๋ชจ๋๊ฐ ์์ธก์ ์ฑ๊ณตํจ์ ๋ณด์ด๋ฉด์ ๋ ์ ๊ทผ๋ฒ์ด ๋ชจ๋ ๊ณต๊ฐ์ ์ดํด๋ฅ๋ ฅ์ ๊ฐ์ถ์์ผ๋ฉฐ ์ฐ์ํจ์ ํ์ธํ ์ ์์ต๋๋ค.

### Limitations
์ ์๋ ๋ชจ๋ธ์ 1๋ถ ๋ฏธ๋ง์ ์์์ ๋ค๋ฃจ๋ฉฐ long-term ๋น๋์ค๋ฅผ ๋ค๋ฃจ๊ธฐ์๋ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ํ์ต ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ์ด ๋ถ์กฑํ์ฌ ์๊ฐ์ ์ธ๊ณผ์ ์ดํด๊ฐ ์์ง ์์ ํ ๊ณ ๋ํ ๋์ง ์์๋ค๊ณ ๋ฐํ์ต๋๋ค. ๋ฐ๋ผ์ ์๊ฐ์ ๋์ฑ ๋ฏผ๊ฐํ๊ณ ์ฑ๋ฅ์ ์ํ ์ค์ฉ์ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์์ง ๊ด๋ฌธ์ด ๋จ์์๋ค๊ณ ๋ฐํ์ต๋๋ค.
๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐ๋ฅผ ๋ง์น๊ฒ ์ต๋๋ค. ์คํ์ ์ฌํ์ฑ ๋ฑ์๋ ์์ฌ์์ด ์์ง๋ง, videochat์ ์๋ก์ด ๋ฒ์ ๋ค์ด ๋์ค๋ฉด์ ๋ค์ํ ๋ฐด์น๋งํฌ์์ ๋์ ์ฑ๋ฅ์ ๊ฑฐ๋๊ณ ์๋ ๋งํผ, ํ๋ก์ฐ์ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค์. ๊ฐ์ฌํฉ๋๋ค. [๊นํ๋ธ ๋งํฌ]

์๋ ํ์ธ์ ์ ์ง๋ ์ข์ ๋ฆฌ๋ทฐ ๊ฐ์ฌํฉ๋๋ค!
fig2(a) ์ค๋ช ์ ๋ณด๋ฉด VideoChat-text๋ ๋น๋์ค๋ฅผ ํ ์คํธ ์ค๋ช ์ผ๋ก ๋ฐ๊ฟ ๋ฃ๊ณ , VideoChat-embed๋ ์๋ฒ ๋ฉ์ผ๋ก ์ง์ ๋ฃ๋ ๋ฐฉ์์ด๋ผ๊ณ ์ดํดํ์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด text ๊ฒฝ๋ก๋ ๊ฒฐ๊ตญ ๋น๋์ค๋ฅผ ํ ์คํธ๋ก ๋ฐ๊พธ๋ ๋ฐฉ์์ธ๋ฐ, ๋ ผ๋ฌธ ์ด๋ฐ์์ ๋งํ ๋น๋์ค ์ ๋ณด ์์ค ๋ฌธ์ ๋ฅผ ์ํํ๋ ๋ฐ๋ ์๋ฏธ๊ฐ ์๋ค๊ณ ๋ด์ผ ํ ๊น์?
์๋ ํ์ธ์ ์ ์ง๋ ์ข์ ๋ฆฌ๋ทฐ ๊ฐ์ฌํฉ๋๋ค.
๋ ผ๋ฌธ์์ VideoChat-text์ VideoChat-embed ๋ ๊ฒฝ๋ก๋ฅผ ๋ชจ๋ ์ ์ํ ์ ์ด ํฅ๋ฏธ๋ก์ ์ต๋๋ค.
๋ค๋ง text ๊ฒฝ๋ก๋ ๊ฒฐ๊ตญ ๋น๋์ค๋ฅผ ์ค๋ช ๋ฌธ์ผ๋ก ๋ฐ๊พธ๋ ๋ฐฉ์์ด๋ผ, ์ธ๋ฐํ ์๊ฐ ์ ๋ณด๋ ๋งฅ๋ฝ ์ ๋ณด๊ฐ ์ค์ด๋ค ์ ์์ ๊ฒ ๊ฐ์๋ฐ,
์ ์๋ค์ด ์ ๋ ๊ฒฝ๋ก๋ฅผ ๋ชจ๋ ์ ์งํ๋์ง, ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก๋ ์ด๋ค ์ข ๋ฅ์ ์ง๋ฌธ์์ embed ๊ฒฝ๋ก๊ฐ ๋ ์ ๋ฆฌํ๋์ง์ ๋ํ ๋ถ์๋ ์์๋์ง ๊ถ๊ธํฉ๋๋ค.
๊ฐ์ฌํฉ๋๋ค.