내년부터 R&D 예산이 줄어든다니, 이제 한국 과학 발전은 끝이라고?

지난 8월부터 말이 나오더니, 요즘들어서 내년 R&D 예산이 큰 폭으로 줄어들어 문제가 많다는 지적들을 듣는다. 대부분은 정부에서 나오는 프로젝트 발주금으로 회사를 운영하는 분들, 그런 돈에 의지하는 분들께서 하는 말이다. 나는 정부에서 받는 돈이 하나도 없고, 그 분들과 엮인 사업도 안 하기 때문에 관심이 없었는데, 몇몇 이야기를 들으며 좀 어이가 없어 한 마디 꺼내본다.

한국와서 가장 황당했던 것 중 하나는 기가차는 논문을 논문이랍시고 발표하고, 그걸 KCI 논문이랍시고 실어주는 어이없는 학회지, 거기에 지원금을 주는 정부 기관 간의 카르텔이었다. 저런 악마들이 나라의 과학 기술 발전을 망치고, 쓰레기만도 못한 연구를 한다고 목에 힘을 주고 다니면서 정작 ‘AI = 개발자들 전용 업무’라는 황당하기 그지없는 인식을 심어놓은 장본인들이었다고 생각하기 때문이다.

위의 이미지는 우리 SIAI 학생 중 한 명이 이번에 논문 쓰면서 ‘Literature review’라고 갖고 온 내용의 일부다. 좀 못된 소리해서 미안하지만, 듣다가 암 걸릴 것 같아서 그만해라고 막아버렸다. 저건 논문이 아니라 그냥 학부 3학년 정도가 수업 시간에 낸 레포트 수준에 불과하기 때문이다.

더 충격적인 부분이 있었는데

이 부분은 정말 도저히 못 보고 있겠더라. 저렇게 여러 계산법 다 돌려보고 그 중 어느게 더 잘 맞는지 찾아봤다는 거잖아. 우리 SIAI 학생이라면 절대로 쳐다보지도 말아야 할 조잡한 논문이다. 사실 암 걸릴 것 같다는 표현을 쓸 게아니라, 공부 제대로 한 거 맞냐는 꾸중을 했었어야 했다고 생각한다. (그 시점에는 참았었는데, 대충 눈치는 있었으리라.)

저런 계산을 하려면 무슨 변수가 핵심 변수일지, 혹은 핵심이지만 보이지 않는 Hidden variable을 찾아낼 수 있을만한 업계 환경을 먼저 생각해야 한다. 실제로 학생에게 주문한 첫번째 내용은 저쪽 업계에서 계약 관행이 어떻게 이뤄지고 있는지를 먼저 찾아보라는 거였다. 그 계약서 구조에 따라 웹툰, 웹소설 플랫폼들이 광고비를 투입하는 방식도 다르고, 작가들이 홍보를 위해서 어떤 전략을 짜는지도 다를 것이기 때문이다. 이게 작가 1명이 혼자서 움직이는 상황이면 크게 의미가 없겠지만, 작가 뒤에 에이전시가 붙어 있는게 일반적인 시장 상황이 된 만큼, 분명히 콘텐츠 찍어내기에만 몰두하는게 아니라, 마케팅, 콘텐츠 관리, 댓글 조작단, 댓글 관리단 등등의 다양한 담당 업무가 더 붙어 있을 것이 확실하다. 그런 상황들이 모두 작동하고 난 다음에 흥행 여부가 결정될 것 같은데, 저런 식의 피상적인 데이터, 그냥 대충 웹페이지에 크롤러 붙여서 갖고 온 데이터로 하는 작업은 우리 SIAI의 MBA 졸업생이 쓸 논문이 아니라, 국내의 평범한 대학교 학부 3학년 때 처음 Machine Learning이라는 수업 들어본 애들이나 쓸 기말고사 레포트겠지.

저런 논문을 써 놓고, KCI로 출판하고, 정부 지원금을 받고, 또 연구 실적이라고 자기 홈페이지에 기재하고…. 이런 카르텔을 완전히 깨뜨리지 않으면 한국의 연구 역량이 올라가는건 절대로 불가능하다.

내 주변 교수하는 지인들이 SKY의 메이저 전공으로 간 경우를 제외하면 학교의 동료 교수들이 저런 수준의 연구나하고 정부 지원금 Hunter나 하고 있는 상황이라며 황당해 하는 경우들도 많이 보고, 그렇게 연구 역량이 전혀 없는 교수들 틈에서 자기 논문을 발표하면 ‘X 교수는 맨날 어려운 거만 발표하니까 우리가 보고 싶은 생각이 안 들지’ 같은 반응들을 듣는다며 불평들을 한다.

난 아예 저런 사람들과 상종을 안 하고 사는데, 그 분들은 조직 내의 인력이 저런 상황이니 피할래야 피할 수가 없을 것이다.

우리 SIAI 학생 중에 서울시에서 운영하는 공유자전거 프로그램인 따릉이 데이터를 이용해서 졸업 논문을 쓰는 학생이 있다. 궁금하신 분은 아래의 링크들을 가서 확인해보시라

논문 열심히 쓰고 있는 학생의 의욕을 꺾을려는건 아니고, 이 학생이 잘못하던 부분을 지적했던 경험담을 공유해볼까 한다.

갑자기 따릉이 사용량 시계열 데이터를 갖고 오더니, stationarity 이슈가 있으니 First differencing(FD)을 해서 non-stationarity를 제거하겠다는 슬라이드를 갖고 나왔다. 오잉? 왜 하필 FD를 하는거지? 이건 Trend, Seasonality가 있는 부분을 제거해야 되는 데이터인데?

FD를 하게 되면 ‘화요일 – 월요일’, ‘수요일-화요일’… 같은 데이터들만 남게 된다. 당연히 Trend와 Seasonality가 상당부분 제거가 됐으니 자기 눈엔 stationarity 이슈가 해결된 것처럼 보이겠지만, 이러고 나면 데이터에 남은건 요일별 차이 밖에 없다.

데이터의 문제는 인식했는데, 계산법을 잘못 쓰는 바람에 목표 달성에 실패한 것이다.

FD쓰면 안 되고, 여기서는 Seasonality decomposiiton을 하고 남은 데이터를 봐라, 특히 weekly, yearly seasonlity에 대해서 신경을 써야한다고 주의를 줬다. MBA가 아니라 BSc의 마지막 몇몇 추가 수업을 더 들었으면 SARIMA를 해 볼 수도 있겠지만, 굳이 무리할 것 없이 Seasonality를 단계적으로 제거만해줘도 충분한 data pre-processing이 된다.

그 다음으로 납득할 수 없었던 부분이 Residual 안에 ARMA 구조가 있으니 이걸 Power Transformation으로 제거하겠다는거였다.

뭐 완전히 틀린 계산은 아니다. 아마 결과로 나오는 Estimator들이 BLUE가 아니게 될 것이지만 Consistency는 어찌어찌 맞아들어갈 수 있어보이니까.

그런데, ARMA를 제거하기 위해 Residual에만 저렇게 변형을 하고 끝내는게 아니라, X, Y 모두를 다 조금씩 변형하는 Generalized Least Square(GLS)를 수업 시간에, 그것도 학위 과정 극초반부에 가르친 적이 있다. 여기서는 X, Y도 함께 변형되어야 BLUE를 뽑아낼 수 있으니까, 굳이 Power Transformation을 쓸 것이 아니라, 기본형 GLS만 써도 충분하다고 생각했다.

아마 외부의 어딘가에서 구글링해서 본 자료들을 갖다 붙여 쓰다가 일어난 ‘참사’일텐데, 저렇게 작업하고 있는 공돌이들을 이미 한두번 본 게 아니기 때문에 별로 놀랍지는 않다. 그냥 지적해주고 넘어갔을 뿐인데, 다음달 발표에서는 문제점을 수정해서 갖고오기를 바란다. 지금 당장은 BLUE를 못 맞춰주는게 사소한 차이로 보일지 모르지만, 저 데이터의 SARIMA 구조상 BLUE에 가까운 Estimator를 만들어내기 위해 바짝 신경을 쓰지 않으면 Consistency가 깨지는 사건이 언제 어느 스테이지에서 나타날지 모르기 때문이다.

항상 수업 시간에 말하는대로, Consistency가 깨진 계산은 그냥 잉여 계산에 불과하다. 외부인들이야 데이터 그래프가 화려하면 우와~ 하고 보겠지만, 나 같은 사람들은 Consistency 깨진게 눈에 보이면 그 논문은 쓰레기 통으로 그대로 던져버린다. 연구 역량을 갖추지 않은 사람이 쓴 논문인데, 왜 귀찮게 읽어봐야되는거지? 실수로 프린트를 했으면 이면지로 쓰고, 아직 화면 상에 있는 파일이면 ‘Trash can’이라는 아이콘 쪽으로 옮긴다.

이런 관점에서 보면, 저 학생은 온갖 실수를 다 하고 있지만 이미 저 위의 어느 황당한 국내 연구자들 논문보다 상황이 훨씬 더 낫다. 날 더러 1명을 뽑으라고 하면 당연히 둘 다 안 뽑고 귀찮아도 내가 하고 말지~ 라고 생각하겠지만, 앞으로 1년 후에 둘 중 1명을 뽑을 의향이 있냐, 최소한 뽑아놓고 월급 안 줘도 가르쳐줄 의향이 있냐고 물으면, 별로 고민 안 하고 그 국내 연구자 이력서를 Trash can으로 넣어버릴 것이다. 저 분은 이미 머리도 굳었고, 이상한데서 이상한 것만 배웠는데, 도무지 갱생의 가능성이 안 보이기 때문이다.

끊을 인간들 주머니만 끊고, 남겨야되는 인재들은 선별하자

자, 한국 R&D 사정으로 다시 돌아와서, 국내 대학 출신 박사들의 연구 역량이 저런 상태인데 그간 R&D 지원금이라고 국민 세금을 갖다 바쳤다는걸 내 시야에서 보는 사람들의 생각이 어떨까? 진작에 돈 안 주고 어디 기업체에 개발자나 해라고 엉덩이를 찼었어야 되는 인간들인데, 너무 늦었다는 생각이 드는게 상식이지 않을까?

반대로, 자기가 잘못된 선택들을 하고 있다는 지적을 듣고, 감을 잡고, 다음달에는 제대로 해 올 수 있는 가능성을 갖춘 인재들에게 지원금이 조금이라도 더 들어가야 되지 않을까? 사실, 저런 상태일 때는 지원금 주면 안 되고, 제대로 할 수 있는 상태, 즉 0~0.9999 상태 말고 1이 된 상태일때만 지원금이 가치가 있다. 그래야 제대로 된 결과물을 찍어내고, 그 결과물이 사회적으로 의미가 있는 상태가 되기 때문이다.

이런 이야기를 꺼내면 국내의 수 많은 정부 R&D 의존형 인재들이 굉장히 분노해서 또 날 더러 온갖 욕을 다 할 것이다. 그게 지금 윤석열 정부가 욕을 먹는 이유인 것 같은데, 딱히 특정 정부에 대한 지지 따위는 없는 삶을 살아왔지만, 이번 정책만큼은 완벽하게 옳은 정책이라고 생각한다. 그들을 퇴출시키는데 가장 확실한 방법은 돈 줄을 끊어버리는거니까.

다만, 이렇게 돈 줄을 끊어놓고 정작 멀쩡한 연구하시는 분들 주머니를 비우는 잘못된 결론이 나지는 않았으면 좋겠다. 한국이 절망적인 상황인건 사실이지만, 모든 연구자가 다들 그렇게 절망적인 건 아니고, 어려운 상황에서도 0~0.999인 인력들과 섞이지 않고 1 수준의, 글로벌 시장에 먹힐만한 연구를 하시는 분들도 많다. 돈 줄을 끊는 것이 만능이 아니라, 그렇게 0~0.999와 1을 구분해서 예산 배정을 할 수 있도록 운영 관리도 필수적이다. 이걸 잘못하면 정말 나라의 미래를 망치는게 된다.

정리하면, 돈 줄은 잘 끊었는데, 끊을 인간들 주머니만 끊고, 남겨야되는 인재들은 잘 선별해주시기 바란다.

Similar Posts