통계학 석사가 본 데이터 사이언스

아래는 국내 어느 명문대의 통계학 석사 과정에 재학 중인 학생이 보내온 글이다.

데이터 사이언스라는 지식을 통계학 학/석 과정을 겪으며 공부하던 학생이 파비블로그 글을 이해하게 되는 과정 및 되고 난 다음 자기만의 표현으로 정리한 블로그 리뷰 같은 글인데, 여러 사람에게 도움이 될 것 같아서 공유한다.

 


(중략)

제가 메일을 드린 이유는 대표님께 감사 인사 드리고, 주제 넘지만 지금 진행하고 계시는 과정들이 너무나 동의가 되어서 메일을 드리게 되었습니다.

저는 지금으로부터 약 3년전 군 제대 후, 통계 대학원 진학을 고민하던 중, 대표님의 블로그를 알게 되었고, 블로그의 모든 내용을 정독한 후 타이핑으로 정리하고 하나의 스토리로 만들고 이해하려고 노력하였습니다. 모든 내용들이 다 이해가 되지는 않았지만, 한 가지 확신이 들었던 부분은 해석학/실해석학에 기반한 수리통계학, 그리고 선형대수에 기반한 회귀분석에 대한 올바른 이해가 필요하다는 것이었습니다. 그리고 이에 근거한 대학원 진학 이후의 과정에 대한 구체적인 계획을 세워 대표님께 메일을 드렸던 기억이 있습니다.

3년 전에는 대표님께서 블로그에서 끊임없이 강조하신 수학/통계학 공부에 대한 강조가 개인적으로는 동의가 되었지만, 제 부족한 실력으로 이를 저의 말과 언어로 표현하지 못해 답답했고, 주변 동기들은 답답한 공부법이라고 잘 이해하지 못해 힘든 순간들도 참 많았습니다. 하지만, 선형대수 12, 해석학12, 및 다변수해석학을 조금 다루는 해석학특강, 미분방정식 수업을 수강하며, 제가 학부때 배운 수리통계학, 회귀분석(+다변량통계분석)의 내용들을 수학의 언어로 표현하려고 지속적으로 시도했고, 지금은 통계학에서 다룬 내용들이 하나의 스토리로 연결되어 참 기쁘고 감사합니다. 가장 감사한 부분은, 주변 사람들은 통계학이 되게 outdated된 학문이라고 하는데, 그게 딥러닝에 대한 올바른 이해를 하지 않고 딥러닝 아키텍쳐를 사용하는 사람들에 대한 오해라는 사실을 저의 언어로 설명할 수 있게 되었다는 사실과, 통계학을 더 공부하고 싶다는 확신이 생겼다는 부분입니다.

결국 deep learning이라는 것이 weight와 bias parameter를 vectorization 표기법을 이용해서 표현하면, 일반적인 regression setting이 되는 것이고, 주어진 자료의 unknown but true model(혹은 data generating process)이 강한 non-linearity를 띠는 경우에 사용하는 ‘activation function와 이의 결합’이 deep learning이라는 것을 이해하게 되었습니다. 결국 학부 다변량통계분석 때 사용하는 factor modeling에 non-linearity를 추가한 modeling technique의 하나라는 것을 이해하게 되었습니다. 즉, 우리가 분석하고자 하는 자료가 linear model, 혹의 이의 generalized version(eg. GAM) 등으로 잘 설명이 된다면 불필요하게 복잡한 modeling technique이라는 사실을 이해하게 되었습니다.

점차 블로그의 내용들이 하나의 스토리로 이해가 되고, 또 저의 언어로 대표님의 블로그 내용들을 제가 설명할 수 있게 되면서 대표님께서 어떤 부분에 있어서 화를 느끼시는지 이전보다는 조금 더 깊이 공감하게 된 것 같습니다. Deep learning이라는 (계산)방법론 자체가 아니라, deep learning 방법론을 사용하지 않아도 되는 영역에서도 deep learning을 무분별하게 사용하는 것에 대한 분노라는 생각이 들었습니다.

이번 학기에, 경제학과 대학원에서 개설된 XXXX라는 수업을 들으며, 조금이나마 왜 대표님께서 계량경제학에 대한 중요성을 강조하시는지 이해가 되었습니다. 제가 올바로 이해한 것이 맞는지는 모르겠지만, 계량경제학이라는 것이 결국 경제학에서 주로 사용하는 자료들의 data generating process(=modeling)에 대해서 학습하는 과목이라는 생각이 들었고, 그것이 곧 통계학의 요체라고 받아들였기 때문입니다.

3년전 너무나 답답했던 상황 속에서, 우연히 대표님의 블로그를 알게 되었고, 통계학이라는 학문이 무엇인지, 그리고 그것이 현재 사용되고 있는 deep learning과 어떻게 연결되는 것인지 이해하게 도와주시고, 또 통계학이라는 학문에 대한 확신을 가지게 해주셔서 진심으로 감사드립니다. 많이 부족하지만 정도를 따라 열심히 공부하도록 하겠습니다.


많은 분들이 공대, 특히 CS가 만들어낸 피상적인 지식, 가짜 지식, 사기 지식에 현혹되어 있는 경우가 대부분이고, 통계학 공부를 하는 학생들도 자기가 제대로 된 지식을 공부하고 있는지 의구심을 가지는 경우가 많다.

마치 적자 출신이 계모 밑에서 자란 탓에 자기가 적자인지 모르고 위축되어 있는 상태, 서자 출신이 무슨 집안의 대들보인 것처럼 거들먹거리는 형국이랄까?

윗 분은 스스로의 힘으로 3년 정도의 공부를 통해서 극복해내신 것 같다.

CS하는 애들이 자기네들이 “IT”라서 적자고, 다른 전공 사람들은 “비IT”라서 서자라고 생각한다는데, 그래서 2SLS 같은 통계학적 데이터 전처리 법을 단순한 Data Labeling이랑 같은 수준의 지식이라고 착각하고 무시한다던데, 그냥 비웃음 밖에 안 나오더라. 쓰레기들.

이런 척박한 환경 속에서 스스로의 힘으로 지식을 습득하고 스스로를 발전시키는 분이 있어서 참 다행인 것 같다.

메일을 통해 하나 알게 된 건, 어느 정도 이상의 내공이 쌓이기 전까지는 파비블로그에 상세(?)하게 설명한 글을 다른 바보들한테 전달하기 어렵다는 사실이다. 예전 신촌 부근 어느 통계학 학부생이 “대표님만큼 깊게 공부해야 눈에 보이는 지식”이라는 표현을 쓴 적이 있었는데, 학교에서 좀 더 적극적으로 통계학과 학생들에게 자부심을 심어주시는 교육을 했었더라면 어땠을까 싶다. 엄마가 계모인 것과 다를 바 없는 교육을 받고 있으니 통계학과 학생들이 더더욱 저렇게 자부심을 못 가지는거겠지.

학부 고학년 시절, 어느 Finance 전공 수업에서, 본인이 학부 경영학과 출신이신 경제학과 Finance 교수님이 그러시더라.

여기까지만 껍데기 훑고 넘어가면 경영학과지? 근데 우리과는 여기서 멈추면 안 되겠지? 경제과 자존심이 있지.

본인이 학부를 잘못 들어갔었다고 많이 후회하셨다던데, 일선 학교의 계산과학 연계전공 강의하시는 교수님들이 수업 시간에 학생들에게 좀 이렇게 자부심을 불어넣어주시면 좋겠다.

그 시절에도 MBA 바람이 불고, 경영학과 애들이 옷만 번드르르하게 차려입고 꼴깝을 떨었는데, 교수님들이 경영학과가 얼마나 쓰레기 학과인지 수업 시간에 가끔씩만이라도 언급해주셔서 우리에게 얼마나 큰 자부심의 원천이 되었는지 모른다.

나중에 경제학 석사 유학시절, 옆 전공에 판사출신 법대 선배가 경제랑 경영이랑 완전히 다른 차원의 전공이고, 경영은 대학 교육과정 취급도 못 받는다는 사실을 알고 충격먹던데, 그런식의 메세지가 널리 두루두루 퍼지도록 계산과학 하시는 분들이 모두 힘을 모았으면 한다.

그 시절, 경영학과 출신에 경제학 복수전공을 했던 선배는 유럽에서 직장 찾으면서 본인이 경영학과 공부한 걸 이력서에서 아예 지웠더라. 회사에서 학부를 사기로 졸업했다고 폄하할꺼라는걸 아니까.

지금이야 Information Asymmetry 덕분에 CS 애들이 꿀을 빨지 몰라도, 경영학과와 크게 다르지 않은 깊이의 교육만 계속하고 있다가는, 머지 않은 시점에 CS 애들이 자기 전공을 이력서에서 지워야하는 날이 올 것이다.

그 날이 빨리 오는 방법은? 저 위의 통계학 석사생 같은 분들이 많아지고, 나같은 사람들이 CS가 완전 틀려먹은 바보들이라는걸 꾸준히 보여주면 되겠지.

그렇게 경영학과가 몰락했잖아?

Similar Posts