안녕하세요. 허재연입니다. 이번 2월은 한달 내내 제안서 작업에 매진했었습니다. 이전부터 제안서 작업이 힘들다고 들었었는데, 직접 해보니 (제가 메인으로 작성하지 않는데도)많이 어려웠습니다. 어떤 일들을 했고 어떤 어려움을 겪었는지 남기고자 X-Diary를 작성하게 되었습니다. 이 기회에 지난 제안서 작업을 되돌아보고자 합니다. 이후에 제안서 작업을 할 때는 이번에 부족했던 부분들을 메꿀 수 있길 기대합니다.
제가 이번에 참여했던 제안서는 크게 비디오팀의 OTT과제 제안서, 다크데이터팀의 멀티모달/멀티태스크 데이터 가치부여 제안서입니다. OTT과제에서는 자잘한 부분들을 도와드리는 서브 느낌이었고, 다크데이터 제안서 작업 때에는 홍주영, 황유진 연구원님의 보조 느낌으로 참여했습니다. OTT과제 제안서에 합류하며 제안서 작업이 어떻게 진행되는지 처음으로 경험했습니다. 기본적으로 제안서는 공고가 올라온 과제에 대해 관련 연구원들(교수님들이나 기업)이 컨소시움이 꾸린 이후 해당 과제를 어떻게 수행해 나갈 것인지에 관한 계획 및 연구과제를 잘 마칠 수 있음을 어필하는 연구 역량 부분들이 작성됩니다. OTT 과제의 경우 OTT 사용자의 편의를 위한 다양한 비디오 기술(장면 분할, 텍스트 기반 구간 검색, 요약 영상 생성, 장면 태깅 등..)을 개발하는 것을 목표로 했던 것으로 기억합니다. 해당 기술 등을 개발하면 국내 OTT활성화를 기대할 수 있겠죠. 비교적 application에 가깝다고 느꼈습니다. 제안서의 전체적인 방향이 정해진 이후 제안서를 본격적으로 작성하기 전에는 이제 해당 분야에 대한 연구가 얼마나 진행되었는지, 관련 시장 규모는 어떻게 되고 이후 어떻게 변화할지, 경쟁 기관 및 기술 현황은 어떤지 등에 대한 동향이 파악되어야 합니다. 저는 이 과정에서 국내외 시장 규모 및 수출입 현황 서베이를 맡았습니다. 아무것도 모르는 백지상태에서 최대한 생각나는 관련 키워들을 총동원해서 이것저것 서베이한 기억이 나네요. 조사 기관이 공신력 있는 기관인지, 방금 내가 찾은 내용이 활용 가능한 자료인지 잘 판단이 서지 않아 헤맸던 기억이 있습니다. 사실 제안서 전체를 놓고 보면 결론적으로 반 페이지도 되지 않는 작은 파트에 대한 조사였는데, 실수가 있으면 안된다고 생각해 최대한 많이 찾아보고 한번 거르고 찾아보고 교차검증하고..를 반복했습니다. 특히, 필요한 형태의 자료가 나오지 않는 경우가 참 답답했습니다. 예를 들어 2030년까지의 매출 변화 추이 자료를 찾아달라는 오더가 내려왔을 때 아무리 찾아도 2028년까지의 자료밖에 없다던가 하는 경우들이 있었는데, 이런 상황들에서 어떻게 해야 할지 혼자서만 고민하다 만들어진 결과물이 지시 내용과 달라졌던 적이 있습니다. 지금 생각해보면 막혔을 때 상황을 정리해서 바로바로 질문을 드리는게 좋았었는데, 그러지 못했습니다. 이후 제안서 작업(다크데이터 제안서 포함)에서도 몇 번 같은 상황이 반복되고 나서야 잘못하고 있다는 것을 인지했습니다. 이 때문에 몇번 실수가 생겼고 혼나지도 했었는데, 앞으로 협업할 때는 이런 부분을 특히 조심해야 할 것 같습니다. 국내외 시장 규모 서베이가 끝난 이후에는 국내외 특허 시트를 다른 분들과 함께 정리하고, OTT제안서 작업이 마무리되었습니다.
OTT과제 이후에는 다크데이터 팀 제안서 작업이 있었습니다. 2월 말부터 시작한 작업으로, 저희 팀의 이후 3년을 책임질 과제라 정말 열심히 참여했습니다. 해당 연구는 OTT과제보다는 훨씬 코어 기술 연구에 가깝다는 느낌을 받았습니다. 제안서 작업 도중에서 해당 기술들을 개발해서 어떻게 응용할지에 대한 고민보다는, 이론 및 기술 자체에 초점이 맞추어져 있었습니다. 과제 제목은 ‘멀티 모달/멀티 테스크 통합 AI모델을 위한 데이터 가치 부여 연구’로, 3년에 걸쳐 multi-modal/multi-task를 고려한 일반화된 실세계 데이터 가치판단 방법론 개발을 목표로 합니다. 저희 연구실은 vision data에 대한 data valuation에 집중하고, 다른 데이터 모달리티(text, audio, graph등)은 다른 연구실에서 수행할 예정입니다. 해당 제안서 작업에서도 연구꼭지를 잡는다던지, 연차별 달성 목표 설정 등 큰 그림은 교수님과 고연차 연구원분들이 담당하셨습니다. 제가 주로 참여한 부분은 1차연도에서 다루는 dataset distillation부분이었습니다. dataset distillation을 간단하게 설명드리자면, 기존의 50,000장의 학습 데이터셋을 합성 데이터를 생성해 아주 작게 만드는 것입니다. 단 50장의 합성 데이터만을 학습해 50,000장의 데이터로 학습한 것과 동등한 성능을 달성하게 하는 것이 목표라고 생각하시면 될 것 같습니다. 서베이를 마무리하고 작성된 부분을 검토하는 과정에서 이슈가 있었는데, 제가 제안서의 작성 방향을 정확히 파악하고 있지 못한 점이었습니다. 숲인 과제의 큰 흐름을 파악하지 못하고 나무만 보고 있어서 발생한 문제였습니다. 지금 다시 돌아보면, ‘제안서 작성의 큰 방향을 정해져 있으니 나는 주어진 부분에만 집중해야겠다’라는 안일한 생각을 가지고 있었던 것 같습니다. 큰 흐름을 보지 못하니 지금 내가 하고 있는 작업이 어느 부분에 왜 필요한지 정확히 알지 못하게 된 것입니다. 결국 원활한 협업을 위해서는 완벽하지 않더라도 계속 큰 흐름을 파악하고 있어야 하기에, 다음부터는 이런 부분에도 신경을 써야 할 것 같습니다.
최종적으로 제안서에는 연구개발과제의 필요성, 1차년도, 2차년도, 3차년도 각각의 달성 목표 및 그 내용, 과제의 활용 방안 및 효과, 컨소시엄의 연구수행 역량에 대한 내용들로 정리되어 큰 틀이 잡혔고, 이후에는 반복적인 오탈자 교정 및 수정 작업이 진행되었습니다. 일정이 상당히 촉박했던 제안서 작업이었고, 최대한 집중하여 몰입했던 작업이었습니다. 제안서 작업이 마무리되고 나니, 꼭 과제가 붙어서 좋은 연구를 해보고 싶다는 생각이 듭니다.
이번 다크데이터 제안서 작업을 하면서 느낀 점들 및 아쉬운 점들이 있습니다. 이후 작업에서는 이런 부분들이 개선되어 더 적극적으로 잘 참여할 수 있기를 바랍니다.
- 이번 제안서 작업은 제가 나중에 하고 싶은 연구를 어필할 수 있는 좋은 기회였는데, 이 기회를 십분 이용하지 못했습니다. 아직 제가 어떤 연구를 하고 싶은지 명확히 정하지도 않았고, Self-Supervised Learning 및 Active Learning 이외에는 관련 연구 분야가 무엇이 있는지 잘 알고 있지 못한 탓도 있습니다. 평소에 더 넓게 다른 분야에도 관심을 가져야 할 것 같습니다.
- 속도와 깊이에 대한 딜레마가 항상 있었습니다. 어떤 내용에 대해 대충 훑기만 하고 넘어가면 당연히 제대로 된 이해를 할 수 없고 아예 틀린 정보를 가지게 될 수도 있습니다. 반대로 너무 깊이 이해하려다 보면 시간이 촉박한 상황에서 자칫 시간 부족으로 이어질 수 있습니다. 처음 보는 주제들을 서베이 할 때는 해당 내용에 대해 어느 정도가 적당한 깊이인지, 각 내용 이해에 어느정도의 시간을 할애해야 하는지 명확한 판단이 잘 서지 않아 계속 고민했었습니다. 특히 전반적으로 내용들이 어려워 제대로 이해하려고 하면 시간이 너무 많이 걸리는 문제가 있었습니다. 지금은 처음 시작할때보다는 조금 개선된 것 같은데, 이 부분은 경험을 통해 개선해야 하지 않나 싶네요.
- 연구실에서 공식적인 협업을 처음 해보는것 같은데, 소통이 원활하지 않았 문제가 있었습니다. 위에서도 한번 말했었는데, 어떤 지시가 내려왔을 때 헷갈리는 부분이 있거나, 조사 결과 지시한 내용에 완전히 맞게 결과물을 만들어 낼 수 없을 때 저 혼자 고민하고 결과물을 만든 적이 몇 번 있습니다. 이렇게 만들어진 결과물은 사수분들이 의도하고나 지시했던 것과 방향이 틀어질 수 밖에 없었고, 비효율적인 반복이 계속되었습니다. 애매하거나 헷갈리는 부분이 있다면 그 부분을 정리하고 질문해서 확인을 받았어야 하는데, 이번에 그러지 못한 적이 많았습니다. 이후 협업을 위해서는 반드시 고쳐야 하는 부분이니, 스스로 이 부분은 특히 신경을 써야 할 것 같습니다.
- 작은 부분이 아닌 큰 그림을 보려는 노력을 의식적으로 더욱 해야겠다고 느꼈습니다. 수동적으로 제게 주어진 일에만 집중하다보니 큰 흐름을 명확히 이해하지 못하였고, 이는 지금 제가 하고 있는 작업이 정확히 어떤 흐름 안에 있는지, 왜 해야 하는지, 어떻게 활용해야 하는지 알기 어려웠습니다.
- 건강 관리가 중요하다고 다시 한번 느꼈습니다. 다크데이터가 아닌 OTT제안서 작업 중, 급성 위염 및 근육통 때문에 크게 아픈 적이 있습니다. 때문에 제안서 작업에도 참여하지 못하고 수강신청도 제대로 하지 못했습니다. 만일 중요한 일이 임박했을 때 이렇게 아플 수 있다고 생각하니 아찔하더군요.. 평소에 건강관리에 더 신경써 펑크가 나지 않도록 해야겠습니다.
이렇게 쓰고 보니 제안서 작업을 하면서 배운 것도 많고 저 자신에게 아쉬운 점도 많았습니다. 이제 점점 주도적으로 일을 해야하고 더 많은 협업을 해야할텐데, 위에 쓴 부분들이 잘 개선되어야 원활하게 진행이 될 것 같습니다. 최대한 고쳐보려고 노력하고자 합니다. 이제 봄이 오고 새로운 학기가 시작되었으니, 새로운 마음으로 달려보고자 합니다.