데이터 사이언스 석사 – 이렇게 준비하자

Google Analytics (GA)로 웹사이트 트래픽을 계속 모니터링 하는 중에, 갑자기 미국에서 어느 특정 페이지로 유입 숫자가 확 늘어난 것을 발견했다. 누군가 파비 블로그 링크를 걸어놓은 모양인데, 미국에서 굳이 한국어로 된 블로그를 링크를 걸어야할 이유가 있나 싶어서 Referrer (특정 페이지 유입 직전 페이지)를 확인해봤더니, missycoupons.com 이라는 웹페이지였다.

미주 한인 여성 분들의 모임이던데, 통계나 데이터사이언스 하는 분들에게 공부하기 힘들다고 푸념(?)하는 글에 필자의 <데이터 사이언스 석사 – 이렇게 돌아간다> 는 글 링크를 누군가 댓글로 달아놓으셨더라. 뭐가 필요한지, 어떻게 접근해야하는지, 졸업하고 뭘 하게 되는지 등등에 대한 질문에 대한 답글 중에 “정보도 많고 유익”하다고 한 마디 덧달아 놓으셨던데, 정말로 정보도 많고 유익(?)한지는 모르겠지만…

사실 데이터 사이언스 석사 지원하고 싶다, 혹은 유사한 석사 프로그램을 졸업했는데 커리어에 어떻게 적용할지 모르겠다, 어떤 영역이 겹치고, 부족한 부분은 어떻게 준비하면 될까에 대한 질문들을 참 많이 받는다. 그 중에는 저 미주 한인 여성 커뮤니티의 글처럼 약간 하소연스러운 메일들도 있고, 또 정말 아무것도 몰라서 답답하니 그냥 막 던지듯이 질문하는 글도 있고, 또 정말 잘 준비된 분인데 데이터 사이언스 석사하려면 더 뭘 준비해야되냐고 묻는 겸손한 분들도 있다.

비슷한 질문을 하시는 분들이 많으니 이번 기회에 블로그에 짧게나마 한번 쯤 그동안의 답변들을 정리해보자.

 

1. 데이터 사이언스 석사 Admission

다른 글에서도 여러차례 언급했지만, 미쿡에서 석사 프로그램은 박사를 위한 전초전이 아니라, 취업을 위한 일종의 취업 사관학교 같은 방식으로 운영된다. 따라서 졸업생이 얼마나 연봉이 높은지, 어떤 종류의 직장을 찾았는지, 그래서 후배들에게 어떤 네트워크를 제공해줄 수 있는지가 석사 프로그램의 랭킹을 사실상 결정짓는다고 봐야한다.

이걸 누구보다도 잘 알고 있을 Admission Committee가 어떤 학생들을 제일 원할까? 미국에서 좋은 직장을 찾을 수 있는 학생들을 제일 먼저 뽑고 싶지 않을까? 그럼 미국의 좋은 직장들은 어떤 학생들을 원할까?

당연히 미국인이고, 미국에서 좋은 학교 학부를 나왔고, 네트워크가 빠방할 것 같은 사람, 면접을 쉽게 통과할 수 있을 것 같은 사람을 우선으로 뽑고 싶을 것이다.

일단 외국인이면 후순위로 밀린다는 걸 생각하면, 그나마 자기나라 출신들 네트워크를 잘 활용할 수 있는 인도계와 중국계아 아니면 힘들고, 영어 실력이 안 좋아 보인다면 (특히 학부를 미국에서 안 했다면) 더더욱 힘들 것이다. 연구해야하는 박사라면 영어 실력이 좀 덜 중요할지 몰라도, 취업해야하는 석사라면 영어로 의사소통이 전혀 문제가 없는 수준까지는 올라가야한다.

면접을 쉽게 통과할 수 있는 사람은 어떤 사람일까? 학부 시절에 비슷한 전공을 했고, 비슷한 종류의 직장 경험이나 프로젝트 경험이 있어서 면접 때 서류 광탈을 안 당할 것 같은 사람을 뽑아야하지 않을까?

혹시나 필자에게 데이터 사이언스 석사가고 싶다고 메일 쓰실 분들은 Admission Committee가 보기에 자기에게 무슨 강점이 있고, 무슨 약점이 있는지 좀 정리된 메일을 써 주시면 좋겠다. 항상 도전하는 사람들을 응원하고 싶지만, 도전할 준비가 안 된 상태에서 무모한 시도를 하는 것까지 응원해 줄 생각은 없다. 준비가 안 된 상태라면 쓰린 이야기를 듣고 스스로를 갈고 닦거나, 아니면 깔끔하게 포기하고 딴 길을 찾아야하지 않겠나?

 

2. 지원 준비

직군과는 별 관련없는 석사 프로그램인 MBA부터, 구체적으로 특정 직군을 위한 직업 훈련을 잘 시켜주는 각 전공별 석사 프로그램까지, 모든 프로그램들은 1학년이 끝나면 여름방학동안 학생들이 인턴쉽을 찾아가기를 원한다. 그리고 그 인턴쉽은 학교 입학하는 순간부터 찾아야하고, 그 해 겨울이 지나고 2학기가 시작하면 사실상 모든 인턴쉽은 자리가 꽉 찬다.

왜 석사 지원에 필요한 준비 이야기를 하는 섹션에서 인턴쉽 이야기를 하냐고? 석사 프로그램 갓 들어온 애들이 갖고 있는 스킬셋들은 석사 프로그램 1-2달 동안 배운 내용일까? 아니면 학부 때 배운 내용, 석사 들어오기 전에 다녔던 직장에서 배운 내용일까?

데이터 사이언스 석사라고 해서 특별히 다를 것은 없다. 석사 들어가서 배울 내용들을 이미 다 알고 있어서 업무에 바로 투입될 수 있는 초특급 인재라는 시그널을 줄 수 없다면 (그러면 석사 왜 들어가는거지? ㅋ), 그런 사람들과 최대한 비슷하게 보일 수 있도록 자기 자신을 꾸미는게 진짜 지원 준비라고 생각한다.

어떤 인도인은 학부 졸업하던 학기에 데이터 사이언스 관련 블로그를 만들어서, 석사 학위 중에 배우는 내용들을 자기 나름대로 소화하고 정리하는 블로깅을 꾸준히 하고, 그걸로 취업 면접에 활용하는 경우도 봤다.

웃긴 이야기지만, 석사 어드미션을 받는 순간, 이미 당신의 진로는 절반 쯤 결정되어 있다. 런던에서 경제학 석사 다니던 시절, 유럽인 동기 중 하나는 9월 개강 전에 이미 갈 직장이 결정되어 있었다. 필자는 1년간의 성적으로 박사 어드미션에 활용한다고 머리가 터지게 공부했고, 또 누군가는 열심히 직장을 찾아다니고 있었는데, 그 친구는 원하는 공부하겠답시고 여기저기 강연회 쫓아다니고, 들어갈 회사 사람들과 네트워킹 자리에만 열심히 참석하더라.

그 땐 그 친구가 참 부럽기도했고, 시샘도 났지만, 가만 생각해보니 그 친구는 이미 입학 전에 지원 준비가 넘칠만큼 완벽하게 됐던 친구였던 것 같다. 돌이켜 생각해보면, 진정한 지원 준비란 그 친구처럼 될 준비를 갖추는 것이다.

 

3. 필요한 수학, 통계학, 코딩

필자의 블로그에 꾸준하게 수학과 통계학을 강조하고, 코딩은 어느 수준까지만 하면 된다는 식으로 폄하(?)하는 글을 쓰고 있지만, 정작 사람 뽑겠다고 면접을 보고, 수업 교실에 가보면 수학, 통계학은 말할 것도 없고, 코딩도 제대로 못 하는 상태인 사람들이 대부분이다. 도대체 뭐가 어떻게 부족하니 얼마나 채워야한다고 말하기가 참 뭣한데, 이 질문에 대한 대답은 졸업하고 어떤 종류의 직장을 찾고 싶냐는 반문으로 답변을 시작하는 편이 맞을 것 같다.

데이터 사이언티스트라는게 그냥 하나의 직업이 아니라, 사실은 데이터 엔지니어, 데이터 분석, 데이터 모델링 등 다양한 세부 직군으로 나뉘어 있다는 사실은 이미 언급했으니 재론하지 않는다.

데이터 베이스를 구축하고, 관련된 개발을 계속하는 쪽 직업을 찾는다면 수학, 통계학에 대한 필요보다는 Java, C++를 비롯한 개발자용 코딩 언어를 잘 알고 있는 편이 맞을 것 같다. 코딩 실력 기반 위에 데이터 모델러가 갖고 오는 모델들을 개발 모듈에 얹을 수 있는 기본적인 수학, 통계학 지식이 갖춰지면 된다(고 본다).

데이터 분석쪽 업무 중에서 SQL로 자료만 뽑아내고 Tableau 같은 툴로 시각화만 하면 되는 직군에서는 오히려 비지니스 센스(?)라고 부르는 직관이 훨씬 더 중요하다고 생각한다. 코딩은 SQL만 잘하면 될 것이고, 수학과 통계학은 기초만 알고 있으면 될 것 같다. 오히려 이쪽 직업을 찾는 분은 학부 전공이 문과인 편이 유리할 것이다.

데이터 모델링을 하는 경우라면, 머신러닝을 돌리고 이해할 수 있는 통계학은 필수고, 관련해서 수학과 코딩을 어느정도 갖춰야 한다.

요새는 여기서 몇 발자국 더 나아가서, 업무 종류별로 추가적인 스킬셋을 요구한다. 예를 들어 필자처럼 온라인 유저 데이터로 마케팅에 적용하는 비지니스에 있는 사람이라면, 시계열 다루는 통계학 실력이 기본적인 개발 실력 위에 반드시 필요하고, 물론 온라인 마케팅이 어떻게 돌아가는지 알고 있거나 빨리 배울 수 있는 사람이 필요하다. 자연어 처리하는 분야로 가보면, (물론 한국어는 아직 걸음마 단계지만) LSTM 관련된 머신러닝 실력 위에 언어학 내공을 갖춘 사람을 원하는 경우도 봤다.

말은 이렇게 했지만, 정작 필자가 평소에 모든 걸 다 머리속에 집어넣은 상태로 일을 하고 있을까? 그럴리가…

기본적인 지식을 갖추고, 특정 사안에 필요한 수학과 통계학을 빠른 시간에 이해할 수 있을 정도로 훈련을 잘 받았기만 하면 어느 직장에서건 살아남을 수 있다고 생각한다. 예전에 누군가가 필자더러 통계학 공부를 어떻게 했냐고 묻길래, 하나만 깊게파서 제대로 이해하고 나니, 그 다음부터는 다른 주제들도 쉽게쉽게 이해할 수 있더라고 대답했던 적이 있다.

 

4. 통계학이 그렇게 중요한가?

데이터 사이언스는 통계학이랑 다르다? 반은 맞고, 반은 틀리다고 말하고 싶다.

데이터 엔지니어나 데이터 시각화 작업이 대부분인 직군에서는 사실 통계학이 그렇게 중요하다고 생각하지 않는다. 그러나 데이터 모델링을 하고 그 모델링을 바탕으로한 분석을 하는 “진짜” 데이터 사이언티스트라면 통계학을 매우 깊이 알아야 한다. 왜냐고? 통계학은 그들의 “언어”니까. 영어, 한국어 같은 그런 “언어”. (Understanding Statistics as a language 참조)

기존의 통계학은 1억명의 데이터를 6개 기간동안 살펴보는 Panel Data 분석과 2천명의 데이터를 6개월동안 매일같이 기록한 Time Series 분석을 위주로 했다. 그러나 빅데이터 시대가 오면서, 1억명의 데이터를 6개월동안 매초 단위고 기록한 Panel + Time Series인 데이터를 다뤄야하는 상황이 왔다. 그렇다고 이전에 썼던 통계학 테크닉들이 하나도 안 사용되고 완전히 새로운 통계학이 나올까?

아래를 보자.

검색어 트렌드를 캐쉬상에 자주 띄우는 유저들의 행동 패턴을 Herding behavior Index로 잡아내려고 할 때, 검색어별로 Hit 숫자의 cycle을 Frequency table로 옮겨서, unit circle 범위를 벗어나는 경우가 N번 이상 나타나는 경우를 검색어 트렌드라고 잡고, 같은 검색어를 cycle이 끝나기 전에 찾아보는지 여부를 Boolean으로 놓은 다음, 1개월간의 검색어 트렌드를 기준으로 1백만명의 Index를 잡는다고 생각해보자. Index를 상/하위로 나누는 2분법으로 접근할까, 1등부터 1백만등까지 서열을 나눌까, 아니면 반응하는 유저들에 한해서 서열을 나눌까? Activation function은 각각 Sigmoid, Softmax, Rectifier가 될 것이고, 그 전에 1백만명의 1개월간 snapshot 데이터를 갖고 특정한 조건이 영향을 미쳤는지를 알아내려면 Hausman test를, 그 조건을 배제시키고 모델링을 하려면 Fixed effect 모델을 만들어야 한다.

온라인 유저 데이터로 데이터 사이언스 상품을 만들어 내는 회의중에 잠깐 나올법한 이야기를 했는데, 이걸 알아들으려면 무슨 지식이 필요할까?

 

좀 불편할 이야기들

미쿡 직장에서는 인종 차별 없고, 성별 때문에 차별 받지 않는다는 뜬금없는 소릴하는 경우를 가끔 보는데, 필자는 더 이상 대화를 할 필요가 안 느껴져서 보통 피한다. 필자의 좁은 경험담이 전체를 커버할 수 없다는 것은 알지만, 적어도 보고, 듣고, 느끼고, 경험한 백인 사회에서 인종차별은 깊숙한 곳에 숨어있다고 자신있게 이야기할 수 있다.

실리콘밸리에서 한 때 “여자 스티브 잡스”라고 불폈던 Elizabeth Holmes가 왜 그렇게 쉽게 사람들의 시선을 끌어모을 수 있었을까에 대한 질문에 테라노스가 만들어낸 상품이 뛰어나서라고 대답할 수 있을까? 가지고 있다는 핵심 기술이 사기라고 판명되고 SEC에서 벌금까지 받은 판국에? 차라리, 그녀가 금발, 푸른 눈의 백인 여성이기 때문에, STEM 전공에 매우매우 드문 “여성”, “백인”을 다 갖췄기 때문이지 않냐는 이야기에는 많은 사람들이 수긍할 것이다.

N사 포털에서 우연히 테라노스의 성공과 실패에 관련된 글을 읽던 도중에 아래의 댓글을 봤다. (필자가 쓴 글이 아니니 절대 오해 No No!!)

좀 서글픈 현실이지만, 동양인 남성인 필자가 미국 사회에서 겪은 일들에 대한 솔직하고 적나라한 설명이라고 생각한다. 최소한 동양인 (특히 남성)들에게 STEM 전공의 전문지식에 대한 기대 수준은 굉장히 높지만 그만큼 대우 받기는 참 힘들다. (어차피 집 떠나면 고생이다.)

그래도 데이터 사이언스 석사를 졸업자들 대부분이 도전장을 내밀 실리콘 밸리로 가면, 워낙 아시아인 비율이 높아서 상대적으로 인종 차별을 덜 받더라. 뭐, 굳이 따지자면 한국에서 일한다고 해도 라인 못 타면 승진에서 낙오하는 경우가 수두룩한데, 타향에서 네트워크가 부족해서 못 살아남는 걸 인종차별이라고 탓해봐야 무슨 소용이 있을까?

 

데이터 사이언스 석사 시리즈

Similar Posts