2025년 상반기가 마무리되며, 저의 박사과정 3학기도 어느덧 끝을 향해 달려가고 있습니다. 이제 본격적인 방학이 시작된 만큼, 연구 모드에 들어가기 앞서 상반기를 정리해보는 시간을 가져보겠습니다.
0. 2024년 연말 다짐 달성률
우선 작년 연말, 2025년을 시작하며 세웠던 목표들 중 일부를 돌아보며 상반기 성과를 점검해보려 합니다.
📌 논문 작업 집중 (달성률 ●●●●○)
임근택 연구원의 RCV에서의 마지막 논문인 HypSGG 작업에 참여하며, 결과적으로 ICCV 2025에 투고까지 마칠 수 있었었습니다. 비록 개인 주도 연구는 아니었기 때문에 하반기에 더 분발하라는 의미로 동그라미 네 개로 만족도를 표시했지만, 그 이상의 의미 있는 성장이 있었던 경험이었던 것은 분명한 것 같습니다.
단순히 논문 실험만 돕는 것에 그치지 않고, 팀원 간의 커뮤니케이션, 실험 설계의 맥락 이해, 논문 작성 과정을 지켜보면서 아 이렇게도 함께 작업하는 구나를 익힐 수 있었던 것 같습니다. 이 경험은 이후 하반기 논문 작업에서, 막막함을 줄여줄 소중한 자산이 되지 않을까 싶습니다.
📌 최신 트랜드 파악 (달성률 ●●○○○)
연초에는 최신 학회 발표 목록을 빠짐없이 살펴보며 트렌드를 놓치지 않겠다는 다짐을 했었습니다…만… 하지만 실제로는 루틴화가 되지 않아 흐지부지되었습니다. 왜 루틴화가 되지 않았는지 고민해보면 솔직히 말해, ‘왜 해야 하는가?’에 대한 동기부여가 부족했던 게 원인이었습니다. 그저 하면 좋은 것이라는 막연한 생각만 있었고, 산업계의 흐름을 정확히 체감하지 못한 채 우선순위에서 밀려난 경우가 많았죠.
하지만 이제는 조금 다른 것 같습니다. 올해 인턴 면접 경험을 통해, 조금 더 확실한 동기부여가 생겼기 때문입니다. 인턴 지원 과정을 통해 깨달은 점은 아직 제가 ‘넓고 깊은 시야’가 부족하다는 점이었습니다. 단일 모델이나 논문만을 깊게 파는 것도 중요하지만, 다양한 아키텍처, 다양한 방법론을 빠르게 파악하고 연결할 수 있는 큰 그림을 그리는 것과 같이 말이죠.
그리고 오늘 정리할 산업 동향 역시 하나의 전환점이 될 수 있지 않을까 싶습니다. 실제 산업 현장에서 어떤 기술이 필요로 되는지, 어떤 역량이 커리어의 나의 자산이 되는지를 체감하면서, 이제는 이 작업이 단순한 ‘해야 할 일’이 아니라… 조금 과장하면 ‘생존을 위한 준비’라는 느낌이 든다고나 할까요. 단순한 정보 수집이 아니라는 걸 좀 깨달았던 시기고 부족한 만큼 하반기에는 루틴화가 성공하길 다짐하게 됩니다.
1. 2025년 상반기 주요 활동
1️⃣ (1-3월) ICCV 2025 논문 작업
2️⃣ (3-6월) 제안서 작업 2편
3️⃣ (4-6월) RAG 과제 실험
4️⃣ (6월) 네이버 클라우드 산업계 인턴십 지원
5️⃣ (상반기 전반) 연구실 관련 실무(?) 기여
(1-3월) ICCV 2025 논문 작업
하이퍼볼릭 공간 기반의 Open-Vocabulary Scene Graph Generation 논문에 참여했습니다. 문제 정의부터 서베이, 실험 설계까지 하나씩 Contribution을 쌓아가는 과정을 처음부터 끝까지 같이 경험할 수 있었습니다. 이 때 크게 느낀게 하나 있는데.. 근택이를 보면서 ‘연구를 이토록 즐겁게 하는 사람도 있구나’라는 인상을 좀 받은 것 같습니다. 특히, 한 가지 기억하고 싶은 감정은… 약간의 박탈감(?)이었다. 연구를 그 자체로 즐기는 근택이의 태도가 부러웠고, 워딩은 다소 부정적이지만 그게 오히려 자극제가 되어 나도 언젠가는 매 순간 연구 생각만 즐거워서 하게 되자는 강한 동기가 되었기도 합니다.
마지막으로, 다소 마이너하지만 영어에 대한 감각 문제도 한 가지 있었습니다. AI 도구 덕분에 영어 표현을 그럴싸하게 뽑아낼 수 있게 됐지만, 실제로 원문에서 어떤 단어를 자주 쓰는지, 논문 문맥에서 어색하지 않은지를 판단하는 건 여전히 사람의 몫인 것 같습니다. 그 판단이 잘 안서는걸 보면서.. 나도 모르게 한글에 너무 의존하고 있다는 걸 느끼며, 원문 감각을 잃지 않도록 노력해야겠다는 생각도 들었던 경험이었네요 ㅋㅋ.
📝 (작은 교훈) 논문 작성 직후 감정은 시간이 지나면 흐려지는 것 같습니다. 논문 직후 중랑천 걸으면서 그 때의 감정을 쏟아낸 메모 하나 덕분에.. 지금 이 회고에 제 감정을 다룰 수 있었던 것 같네요
(3–6월) 제안서 작업 2편
VLM 기반 보안관제 제안서를 포함해 두 건의 제안서 작업을 진행했습니다다. 연구실에서 제안서를 수도 없이 써봤지만, 이번 제안서 작업은 단연 정신적으로 가장 힘들었던 작업이었던 것 같습니다. 왜 힘들었을까? 남탓을 하고 싶지는 않지만, 한 번만 하면 될 일을 여러 번 반복했고, 매번 마감이 터무니없이 빠듯했기도 했습니다… 결과적으로 과제도 떨어져서… 올해는 아쉬움이 조금 남는 것 같습니다… (주관의 역할을 온몸으로 체험한 것 같달까요..) 그치만 공동작업 할 때 어떻게 일을 해야 원하는 목표를 향해 나아갈 수 있을지 좀 알게되지 않았나 싶네요 허허……..
(4-6월) RAG 과제 실험
RAG 과제 중 비디오-텍스트 리트리벌 실험을 맡아 진행했지만, 지금 돌이켜보면 시야가 너무 좁았던 것 같습니다.
성능을 1~2% 끌어올리는 데에만 집착한 나머지, 실험 설계나 방향성은 영양가 없이 흘렀던 것이죠. 하반기에는 이 부분을 좀 개선해야할 것 같습니다.
최근 교수님과 티타임을 가지면서 큰 반성을 하게 되었는데, “박사과정에게 단순한 수치 향상만 요구할까?” 라는 질문을 스스로에게 던지게 되었습니다. 물론 성능 향상도 중요하죠. 하지만 그건 어디까지나 여러 덕목 중 하나일 뿐, 그 하나만 갖고는 부족하죠… 제가 항상 가지고 있던 ‘내가 맡은 부분만 잘하면 돼’라는 생각은 이제는 제법 위험한 착각인 것 같습니다.
(6월) 네이버 클라우드 산업계 인턴십 지원
제가 네이버 클라우트 인턴십에 지원했던걸 모르는 연구원도 있을 것 같습니다. 결과적으로 최종면접은 봤지만 떨어졌습니다. 다만 이 과정 중 느꼈던 점을 정리하는 게 좋을 것 같아 몇 자 적어보려 합니다.
일단 전형절차는 다음과 같습니다: 서류전형 > 필기전형(코딩테스트) > 면접전형 > 인턴십
서류 전형에는 자기소개서, 내가 그동안 수행했던 포트폴리오, 나의 기술 역량을 적어냈습니다. 그리고 코테 합격 후 면접 전형에서는 제가 제출한 포트폴리오 or job description 기반의 여러 질문을 받았습니다.
면접 자체는 분위기도 좋았고, 나를 존중해주는 인상도 받았지만 면접을 통해 내가 진짜 크게 느낀 게 있었습니다 ㅋㅋ 바로 “박사과정, 진짜 준비 안 되어 있으면 큰일나겠다.”
분명히 학부생이나 석사과정 면접이었다면, 부족한 점이 있더라도 “우리가 키워야지”, “인성과 성장 가능성을 보자”라는 관점이 있었을 것 같습니다 (아닐수도 있지만죠). 하지만 박사과정은 확실히 다른 것 같습니다. 사회가 박사과정에게 기대하는 수준과 역할은 명백히 경력직과 같은 무게감을 갖고 있다고 느꼈다고나 할까요.
면접 전부터 인턴십 직무와 착 들어맞는 경험이 제가 좀 부족하다는 건 알고 있었기에, 결과에 대한 미련은 없었습니다. 아니 오히려 납득이 너무 잘 되었죠. 기술적인 질문들에서 좀 아쉬었는데, LLaVa같은 VLM 관련 구조를 실전적으로 다뤄본 경험이 없다 보니 대답이 흔들릴 수밖에 없었죠. 돌아보면, 박사과정이라면 당연히 알고 있어야 했던 내용들도 몇 가지 있었던 것 같습니다. 단순히 논문을 읽고 정리하는 수준이 아니라, 직접 코드 다뤄보고 여러 실험을 통해 알게된 인사이트를 바탕으로 깊이 있게 말할 수 있어야 했던 것이죠
그리고 여기서 또 같은 결론으로 회귀됩니다. “단순히 논문 성능 올리는 데 집착하는 방식은 이제 위험하다. 언제까지 수치 몇 퍼센트에만 매달릴 건가? 앞으로는 트렌드를 읽고, 기술의 맥락을 이해하고, 그것을 실전적으로 풀어낼 수 있는 내공이 필요하다. 그리고 그 안에서 나만의 연구 철학과 방향성을 갖추지 않으면, 박사라는 타이틀은 산업계에선 아무 소용이 없을지도 모른다.“
(상반기 전반) 연구실 실무 기여
연구실 전반적인 실무도 어느정도 기여한 것 같은데.. 이건 제가 랩장이라서 맡은 게 아니라, 내 특유의 오지랖(?) 때문이었는지도 모르겠습니다. 자잘한 실무일지라도 연구실 들어온 초기에서부터 자발적으로 일을 하다보니 자연스럽게 다른 일들도 한 것 같습니다.
올해는 엑스리뷰 사이트 재구축, 오픈랩 행사 준비, ICAN 연사 초청 및 운영 등등 했던 것 같은데, 솔직히 누군가는 이런 걸 잡일이라 할 수도 있을 것 같습니다. 근데 지금 생각해보면 연구실 초창기에 연구적으로 내가 기여할 수 있는게 없으니 그림이나 잘 그려보자라고 PPT 그림 그리기 시작했던게.. 지금은 또 저의 무기가 되었던 것처럼… 세상에 쓸데없는 일은 없는 것 같습니다.
다만 최근에는 연구실 규모가 커진만큼 예전처럼 모든 연구원이 연구실의 아주 작은 문제라도 다같이 해결하려는 분위기 보다는… 소수의 몇 명만 알고 이를 해결하려고 움직이는 구조로 바뀌어 가는 것 같아 살짝 아쉬움도 있는 것 같습니다. 너나 할거 없이 모든 연구원들이 적극적으로 참여해주는 사람이 있다면 얼마나 좋을까 싶기도 하지만… 적고보니 라떼 발언….
2. 산업 동향과 나의 위치 점검
사실 OpenAI, 메타 같은 빅테크 기업의 인재 영입과 관련된 글은 열심히 봤었습니다. 금액이 얼마고 누가 어디로갔고 이런거요 ㅋㅋ 가령 메타가 OpenAI 연구원에게 접근해서 “연봉 1,000억 줄건데 메타 올래? 5초 안에 결정해야해 ㅋ” 이런 식의 자극적인 썰에만 현혹되어 누가 가는건지 알아볼 생각을 안했다는게 어이가 없네요 ㅋㅋ

각설하고, 그럼 산업계는 지금 어떤 사람을 필요로 할까요?
저는 현재 Video-Text Retrieval에 집중하고 있기에, 주제를 멀티모달 연구로 확장해서 조금 찾아봤습니다.
(일단 이렇게 찾는게 맞는지, 제대로 찾은건지도 헷갈리네요 ㅎㅎ..;;)
네이버 클로바 / 하이퍼클로바
멀티모달 백본, CLOVA VideoQA
생성 + 리트리벌 기반 멀티모달 연구
카카오브레인
RQ-Learning, MM-Vid 등 비디오 VLP
AI 일러스트/비디오 서비스와 연계
삼성리서치
비디오 QA, surveillance AI
모바일 카메라/TV 연계 비디오 AI
ETRI, KIST 등 정부출연연
멀티모달 인식 연구팀
국방/의료/교육용 비디오 QA 및 리트리벌 연구
Retrieval-Augmented Generation (RAG) 멀티모달 RAG는 텍스트, 이미지, 오디오, 비디오를 모두 통합해 문맥을 강화하고 정확도를 높이는 방식으로, 실질적으로 교육, 의료, 고객지원, 자율시스템 등에서 활용되고 있다고 합니다.
비디오 검색 및 분석 플랫폼 ex. Azure Video Retrieval: 표준 인덱스로 키프레임을 추출하고 텍스트 기반 쿼리로 검색하여, 교육ㆍ안전ㆍ미디어 자산 관리에 활용되고 있습니다.
Job Description
multimodal 키워드로 유명한 회사 경력직 모집 공고를 몇 개 정리해봤습니다. 공통점은… 박사과정, Top-tier 페이퍼, 그리고 관련 직무 경험 3년 입니다.
Amazon Applied Scientist II – 멀티모달 정보 검색 포지션 (video understanding, ranking)
교차모달 임베딩, 대규모 검색 시스템 경험 필수
AGI 팀으로서 VLM 기반의 멀티모달 랭킹, 리트리벌 기능 연구 수행
NVIDIA Senior Applied Research Scientist (Retriever 팀) (10개월 전 공고)
멀티모달 성능 최적화, 대규모 파이프라인 구축
배치/스트리밍 처리, NIMs 기반의 인퍼런스 경험 요구
Google DeepMind – Multimodal Generative AI (Image/Video)
이미지/비디오 통합 모델 및 생성 아키텍처 설계
JAX/PyTorch 구현, 논문 및 프로토타입 개발 경험 필수
공통 키워드:
- Large Vision-Language Model (VLM)
- Instruction-following + Retrieval
- Pretraining for multimodal understanding
- CLIP-like encoder & scalable retrieval
- Real-time efficiency / compression / token pruning
여러 JD에서 요구하는 역량들과 비교해보니.. 부족한 점이 많네요.
또한 산업계는 단순한 Retrieval뿐 아니라 Generation까지 연결된 RAG 파이프라인의 end-to-end 구성 경험을 요구하는 것 같습니다. 저는 Retrieval 위주로만 실험해왔기 때문에, 이제는 텍스트 생성 모듈과 연계된 실험을 직접 설계해보는 것이 필요해보입니다.
또 하나는 PoC나 제품화 관점에서의 시야 부족입니다. 제가 위에 언급한 것 외에도 네이버 인턴이나 KT (멀티모달 AI Agent 기술개발)의 JD를 보면, 단순히 실험을 잘하는 사람이 아니라 ‘서비스화’를 염두에 둔 기술 개발 경험을 중요하게 보기도 하는 것 같습니다. 저는 아직 연구 결과를 제품 수준의 데모나 모듈로 정리해본 적이 없기도 하고, 앞뒤에 어떻게 전달해줘야할지 그런 부분도 고민해줘야 겠네요.
결정적으로 국내외 학술성과 EMNLP, CVPR, ICLR 등 논문 작성 또는 연구 성과 제시가 불가능한 것도 크리티컬하네요.
결국.. 연구 과정에서 비디오-텍스트 리트리벌, QA, captioning 등 개별 태스크를 중심으로 접근했기에, 이 기술이 실제 산업에서 어떻게 응용되는지에 대한 이해는 아직 부족한 편인 것 같습니다.
3. 총평
결과적으로 보면, 상반기에 논문도 제안서도 인턴도 모두 떨어지긴 했지만! 오히려 제가 얻거나 깨달은게 많은 상반기였던 것 같습니다. 방향성이나 motivation이 좀 생겼다고나 할까요. 다만 하반기에는 깨달음 말고, 그 깨달음을 바탕으로 어떤 변화가 생겼는지를 리뷰했으면 좋겠습니다.
안녕하세요 상반기 회고 보러 방문했습니다 ^^
말씀해주신것처럼 기술이 산업에서 이용되는 방향을 고민해보시는것은 아주 중요한 것 같아요.
혹시 어떻게 알아볼지 계획해 두신 방법이 있을까요?
고민은 해보았으나 살짝 막막한 감이 있어 글 남깁니다 ^^~
아 맞다! 즐건 하루~~ *⋆꒰ঌ(⁎ᴗ͈ˬᴗ͈⁎)໒꒱⋆*