머신러닝

Data Scientist 면접 질문들

Data Scientist 면접 질문들

오랜만에 WorkingUS.com을 들어가봤다. 미국에서 일하는 한인들의 모임인데, 가끔은 Data Science 관련 분야에 대한 질문 & 답변도 올라오고, 한국 상황이 아니라 미국 상황에 맞는 답변이 많기 때문에 필요하신 분은 참고하시면 좋겠다. 링크의 어느 댓글을 보다가 필자기 2016년에 받았던 여러가지 질문들이 생각나서 한번 정리해본다. 참고로 링크를 보면 느끼게 되겠지만, 한국처럼 코딩을 얼마나 해 봤냐, C언어는 쓸 줄…

대답하고 싶은 질문들

대답하고 싶은 질문들

메일 섹션을 홈페이지 하단에 넣고, 회사 전화번호를 등록했을때만해도 공부하다가 뭔가 잘 모르는 내용이 있는 사람들, 벽에 부딪혔는데 스스로의 힘으로 극복하기 좀 어려운 분들의 연락을 기대했었다. 수업을 하는 것도 같은 이유니까. 나도 공부할 때 힘들었는데, 누군가 조금만 더 도와줬으면 쉽게 극복했을텐데, 이제 쬐끔 더 알게되었으니 도와주겠다는 마음에서 넣어놓은 개인 연락 포인트건만, 거의 대부분의 연락은 포인트 못…

블랙박스(Blackbox)라고?

블랙박스(Blackbox)라고?

소수 (Prime number)가 어떤 규칙을 가지는지, 가장 큰 소수는 얼마인지 등등에 대한 이론 연구를 하는 수학 전공이 있다. 정수론이라고 한다. 수학과 천재들 중에서도 최고들이 도전하는 분야다. 그런 정수론을 자기 평생의 연구 주제로 삼은 장이탕은 베이징대 수학과를 졸업하고, 나이 서른 여섯에 겨우겨우 퍼듀에서 수학 박사 학위 받고나서도 나이 50줄에 들어설 때까지 교수는 커녕 강사자리 하나 못…

데이터 사이언스 공부를 위한 교과서 추천

데이터 사이언스 공부를 위한 교과서 추천

요즘 데이터 사이언스를 독학으로 하고 있는데, 혹은 수업에서 들은 것보다 더 깊은 내용으로 도전해보고 싶은데 좋은 교재를 추천해줄 수 없냐는 요청을 많이 받는다. 불행히도 그런 질문을 하시는 분들 대부분이 수학 & 통계학을 필자 스타일로 공부하신 적이 없는 분들이다. 당장 데이터 사이언스 책을 추천하기 전에 수학과 통계학을 추천해야할 판국인 셈이다. 그 중에는 데이터 사이언스 공부를 하는…

데이터 사이언스 수업 수강생들의 질문

데이터 사이언스 수업 수강생들의 질문

Teaching position에 있다보면 친구들끼리 모임에서 내 수업에 진짜 똑똑한 학생 있다는 이야기를 하는 경우는 거의 없고 (애시당초 그런 학생이 잘 없다 ㅋㅋ), 대부분은 “내 수업에서 이렇게 깝깝한 질문 받았음ㅋㅋ” 이라는 불평을 토로하는 경우가 많다. 보스턴에서 박사 시절, 학부나 MBA 학생들용 수업 TA로 들어가면, 정말 충격적인 질문을 많이 받았는데, 고교 수준의 등비급수를 몰라서 이해를 못하는 학생,…

온라인 데이터 사이언스 강의를 시작하면서

온라인 데이터 사이언스 강의를 시작하면서

오프라인에서 강의를 시작한지 꼭 1년이 지났다. 운영상의 문제도 많이 있었지만, 역시 가장 큰 도전은 “잘못된 인식”과의 고단한 싸움이었다. 수십차례 봤던 개발자 면접에서 이걸 “코딩”으로 인식하고 “갖다 쓰면 된다”는 관점에서 벗어나서, “응용통계학”이고, 기본적인 수학과 통계학 지식이 갖춰져야한다는 사항을 인지하고 있는 경우는 매우매우 드물었다. 수업에 찾아왔던 개발자들 대부분도 이게 무슨 머신러닝 수업이냐, 수학 수업이지라고 불만을 터뜨리는 경우도…

Markov logic network을 Apple Siri에 적용하는 아이디어

Markov logic network을 Apple Siri에 적용하는 아이디어

출퇴근 시간에 자주 방문하는 Datanami라는 블로그가 있다. 여기 pabii처럼 수준 낮은 블로그가 아니라, 기자가 직접 발로 뛰면서 신기술을 최대한 자세하게 설명하는 블로그라서 항상 기대를 갖고 새 글을 기다리는 곳이다. 지난번에는 Markov Logic Network (MLN)라는 DB 설계 & 처리 구조에 활용되는 컨셉을 설명하는 본 적이 있는데, 처음 저 개념이 나왔던 2006년부터 지금까지 다양한 연구가 이뤄졌고, 실제로…

수학이라는 장벽 for 4차 산업

수학이라는 장벽 for 4차 산업

외부 강의 요청이 있거나, 장문의 상담 이메일을 받거나, 책을 쓰자는 연락을 받고 미팅을 하면, 가장 먼저 물어보는 내용이 “어느 정도 수준의 수학”을 알아야 머신러닝을 이해할 수 있느냐다. 몇 번 말이 오가고 나면 이 분들이 왜 필자를 잡고 있는지 금방 눈치채게 된다. 필자가 문과 출신이기 때문이다. “수학”, “통계학”이 중요하다고 열심히 써 놨지만, “너는 경제학 출신이니 수학을…

데이터 사이언스 모델링이란? – Data Filtering

데이터 사이언스 모델링이란? – Data Filtering

학부 3학년 때다. 경영학과 수업 중에 우리과 전공으로 인정되는 몇 안 되는 수업 중 하나인 재무관리 수업 첫 시간으로 기억한다. 기업들의 Financing이 기업 가치 평가, 경영 의사 결정에 어떤 영향을 미칠 수 있는지에 대한 내용을 다루는 수업이었는데, 고학년 거시경제학 수업에서 ABS로 리파이낸싱하는 부분을 이해하는데 도움되는 수업이라는 말을 듣고 큰 기대를 하고 수업에 들어갔다. 다른 과…

통계학자가 본 머신러닝

통계학자가 본 머신러닝

요즘 자주 듣는 표현 중에 필자의 귀를 매우 거스르는 표현들이 몇 가지 있다 빅데이터를 배운다 딥러닝을 배운다 빅데이터는 용량만 큰 데이터가 아니라 유저들의 행동을 초 단위로 추적한 데이터라고 이미 여러번 포스팅을 했다. 딥러닝도 머신러닝의 Neural net 모델 중 layer의 숫자가 좀 많은 모델들을 부르는 이름이라는 것도 같은 맥락에서 여러번 언급을 했었다. 말을 바꾸면 빅데이터와 딥러닝은…

머신러닝에 왜 통계학이 필수일까?

머신러닝에 왜 통계학이 필수일까?

작년 (2017년) 이맘때로 기억한다. 어느 벤처 투자사 (Venture Capital)와 미팅을 하는데, 왜 머신러닝에 통계학이 필수적인지 잘 이해가 안 된다는 질문과, 머신러닝은 알아서 변수를 다 찾아주는 거라고 들었는데, 도대체 무슨 변수를 어떻게 찾아서 최적화를 한다는 건지 잘 이해를 못하겠다고 하더라. 그 중 한 명은 통계학을 꽤나 쓰는 학문으로 석사 유학을 다녀오신 분이고, 다른 한 분은 국내…

머신러닝 다루는 컴퓨터과학과, 통계학과 수업들

머신러닝 다루는 컴퓨터과학과, 통계학과 수업들

수업에 찾아오는 공대생들이 매번 넋나간 표정으로 앉아있는 것 같아서, 도대체 우리나라 공대들은 어떤걸 가르치길래 문과인 경제학과 출신도 따라오는 수학&통계학도 이해 못해서 쩔쩔매고, 학부 수업에 머신러닝 관련된 전공 수업이 얼마나 없길래 외부에 저렇게 학원들이 많이 생기는지 궁금해졌다. 우리학교 Computer Science 학과 웹페이지에 교과목 정보 리스트를 쭈욱~ 훑어봤는데, 필요한 수업들 다 있는데? (Source: 인스티즈) 학부 아니고 대학원이라구요?…

데이터 사이언스와 게임이론

데이터 사이언스와 게임이론

데이터 사이언스라는 업무가 결국은 빅데이터가 있는 곳에서만 유의미한 탓에, IT업계 정도만 진짜 빅데이터를 갖고 뭔가 여러가지 시도를 하고 있는 것을 본다. 얼마 전까지만해도 한국의 IT회사들 대부분이 이미지 인식이나 음성 인식같은 기초적인 데이터 사이언스 업무에만 관심을 갖고, Noise가 더 많은 데이터를 처리 or 가공하려는 시도는 안 하는 통에 많은 경우에 공대 출신 개발자들에 대한 수요만 많은…

인과관계 vs. 상관관계 – Granger causality

인과관계 vs. 상관관계 – Granger causality

데이터 사이언스 강의를 하다보면, 통계학이 뭐가 중요하냐고, 그냥 “빅”데이터 전부를 “딥”러닝 모델에 다 집어넣으면 알아서 답 가르쳐주는거 아니냐고, 왜 자꾸 고등학교 이후로 보지도 않은 수학 이야기하면서 수업을 진행하냐고 불편한 기색을 못 감추는 분들이 있다. 아무 변수나 막 집어넣는 걸 피하려고 여러가지 작업을 해 놓은 현업 머신러닝 적용 논문 (“합리적으로 변수 추출하기” 참조)을 소개시켜줘도 그런 말씀을…

통계학 모르는데 데이터 사이언스 독학할 수 있나요?

통계학 모르는데 데이터 사이언스 독학할 수 있나요?

우연히 구글링 중에 재미있는 글을 하나 봤다. 문득, 필자가 뱅킹을 “때려”치우고 나와서 박사 유학 준비하던 시절이 떠오르더라. 경제학 전공자가 박사 유학 갈려면 학점이 좋아야하는게 아니라, 수학과 (수리)통계학 과목 학점이 좋아야한다. 진짜 좋은 학교 어드미션 받아서 유학 가는 친구들은 수학과 애들을 제치고 A+들을 수두룩하게 받았고, 그게 아니라면 수학과 통계학을 활용해서 경제학 논문을 잘 쓸 수 있는…

데이터 사이언스와 수학&통계학 (2)

데이터 사이언스와 수학&통계학 (2)

철학자님이 수포자에 대한 필자의 글을 읽으셨는지, 또 재밌는 글들을 더 보내주셨다. 프랑스 철학자 루소의 “인간불평등 기원론”에 필적할 연구가 필요하다는 생각이 든다고 하시는데, 일단 아래의 인용문구를 먼저 소개한다. 최초의 좌절: 그대의 책임이 아니다. “태초에 폭력이 있었다. 그 폭력은 그 분이 수학을 창조하셨다는 것이다. 수학교육을 통해 열등감을 가진 80%를 만들어 그들을 저임금 근로자로 삼으라. 수학을 적당히 잘하는…

데이터 사이언스와 수학&통계학 (1)

데이터 사이언스와 수학&통계학 (1)

2달 전 수업을 듣고가신 그 철학자님께서 가끔 재미난 글을 찾으시면 메일을 보내주신다. 필자와 핀트가 맞아서인지 (감히 철학자님께 핀트가 맞는다는 표현이 적절한지는 모르겠지만) 좋은 글들이 많은데, 어제는 요즘 필자의 관심사를 어떻게 알아내셨는지 “‘수포자’의 잘못된 원인 분석이 잘못된 해법을 부른다.”라는 글을 보내주셨다. 링크를 따라가면 꽤나 장문의 분석글을 읽을 수 있는데, 핵심 포인트를 두 개 잡아내면, “수학이 필요하지…