모델링

SBS데이터저널리즘의 오해 – 최근 연구일수록 창의성이 줄어든다?

SBS데이터저널리즘의 오해 – 최근 연구일수록 창의성이 줄어든다?

제보를 하나 받았다. 최근들어 논문들의 창의성이 줄고 있다는 주장을 어느 한 논문을 근거로 지상파 방송국 중 하나인 SBS에서 내놨단다. 기존 연구를 인용한 정도가 높으면 창의성이 낮은 논문이라면서 1950년대부터 점점 창의성이 낮아지고 있다고 한다.   공학은, 특히 요즘 들어 AI논문이라고 하면서 Neural Network 모양만 살짝 바꾼 논문이 너무 많으니까 저 논리가 맞을 수도 있겠다는 생각이 조금…

L1, L2 정규화에 대한 직관적인 이해

L1, L2 정규화에 대한 직관적인 이해

질문: 분포의 형태에 따라 MLE를 계산하는 식이 제곱항 형태이면 L2 정규화를, 제곱항으로 도출되지 않을 경우 L1 정규화를 사용한다는 점 이해했습니다. (베이지안 관점에서도, 사전분포의 형태에 따라 자동으로 L1, L2 정규화 형태가 도출되는 점 확인했습니다) 제가 궁금한 점은, 그럼에도 불구하고 구글링을 해보면 왜 많은 페이지, 논문 등에서 L1, L2를 혼용하는지, 혹은 엘라스틱 넷 같이 L1과 L2 항을…

데이터 사이언스 어떻게 실무에 쓰냐고? – 구글 검색 1위의 위엄

데이터 사이언스 어떻게 실무에 쓰냐고? – 구글 검색 1위의 위엄

(Source: 구글 검색 화면) 뮤직비디오 리뷰글을 쓰고 싶다는 블로거 분이 “구글 SEO 최적화가 중요한 이유“라는 글을 보고 연락을 주셨다. 그동안 네이버 블로그를 오랫동안 운영했는데, 네이버에서도 1등으로 노출된 적이 없고, 구글에서도 자기 글 한번 노출된 적이 없는데 파비캐시에 글 올리면 1등으로 노출되는거 맞냐고 물으시더라. 이미 “구글 SEO 최적화가 중요한 이유“에서 스크린 샷으로 보여드렸고, 그 다음 시리즈…

구글 SEO 최적화가 중요한 이유 (2)

구글 SEO 최적화가 중요한 이유 (2)

지난 글이 공개되고 다양한 종류의 질문/코멘트를 받았다. 어떻게 글을 대충 썼는데도 구글 SEO를 잡느냐? 너무 독점하는거 아니냐? 구글 1등을 기계적으로 먹기 시작하면 트래픽 어마어마하게 늘겠네 그 방법 알려지면 마케터들 줄줄이 직장 잃겠네 Eigen-centrality라는건 뭔가? 등등 일단 몇 가지 오해를 불식시키자면, 무조건 기계적으로 구글 검색 최상단 노출이 되는건 아니다. 단지 그렇게 될 확률이 굉장히 높고, 다른…

구글 SEO 최적화가 중요한 이유

구글 SEO 최적화가 중요한 이유

유저 행동의 시작은 어디일까? 평소에 들어가던 커뮤니티에서 어떤 정보를 보거나, 드라마를 보거나, 책을 읽거나 등등 여러가지 정보 유입이 있겠지만, 그 정보를 찾으려고 할 때 제일먼저 취하는 행동은 정보 검색이다. 한국인이 정보 검색을 하는 채널이 여러방식이 있겠지만, 검색엔진만 놓고볼때, 점유율은 아래와 같다 (Note: 2002년 3월 17일 ~ 2020년 4월 14일, Internettrend.com) 글 쓰는 시점 기준 지난…

전략 컨설팅의 실패와 머신러닝의 관계 (2)

전략 컨설팅의 실패와 머신러닝의 관계 (2)

지난 글 이후로 많은 의견을 받았는데, 답변차원에서 2번째 글타래를 이어가본다. 지난 글에서 이미 학문적 훈련을 받은 사람들과 컨설턴트 사이에 어마어마한 깊이의 격차가 있는 예시를 들었으니, 이번에는 실제 현업에서 비지니스 하는 사람들과 컨설턴트들의 차이를 살펴보자. 케이스 풀이법에서 슈퍼마켓 예시를 들었으니 같은 산업에서 스토리를 이어나가면 될 것 같다. 컨설팅 vs. 슈퍼마켓 지점장 사례 먼저, 당신이 대형슈퍼마켓 지점장이라고…

전략 컨설팅의 실패와 머신러닝의 관계

전략 컨설팅의 실패와 머신러닝의 관계

우리 회사에 전략 컨설팅 방식의 논리 구조화를 좋아하고, 그 방법으로 비지니스 의사결정을 안 하고 있는 상황을 잘못되었다고 지적하는 직원이 하나 있다. 그 분의 사고 방식이 왜 틀렸는지를 설명하다보니 이게 왜 선형 회귀에서 비선형 회귀 or 머신러닝으로 계산 알고리즘의 중심축이 이동하고 있는지와 맞닿아있는 것 같아 글을 한번 정리해본다. 전략 컨설팅에서 하는 “케이스 풀이법” 우선 전략 컨설팅에서…

데이터 사이언스의 학문적인 정의

데이터 사이언스의 학문적인 정의

파비 내부에 기업부설연구소가 설립된 탓에 1년에 1번씩 담당기관에서 실사 방문을 받는다. 처음 그 방문을 받았을 때, “뭐하는 회사에요?”라고 물으시길래, 사업 모델을 간략하게 설명해드렸더니, “아~ 빅데이터 회사네요” 라며 자기네 분류표 어느 구석에 Check를 하시더라. 순간 굉장히 불쾌했다. (누가 날더러 “아~ Data Analyst인가보네요? 저도 엑셀 잘 하거든요!” 라고 반응하는걸 듣는 느낌이었다.) 빅데이터 어쩌고라고 주장하는 회사들의 지적 수준이…

[강의] 데이터 사이언스와 데이터 모델링 수강 관련

[강의] 데이터 사이언스와 데이터 모델링 수강 관련

안녕하세요, 평소 블로그 글 보면서 많은 도움을 얻고 있어서 강의가 개설되기를 많이 기다렸습니다. 한 가지 궁금한 건 데이터 모델링 수업을 듣고 싶은데 이번에 “데이터 사이언스 메인 강좌”와 “데이터 모델링 수업”을 같이 신청해도 될지 문의드립니다. 데이터 모델링 수업을 바로 듣고 싶지만 수강 자격으로 말씀하신 논문 낼 수준은 아직 아니라서요. (중략) 전자공학 학사하고, 컴퓨터 공학 석사하면서 데이터…

데이터 사이언스 학원말고 대학원을 가라

데이터 사이언스 학원말고 대학원을 가라

개발자 채용 중 특정 학원 출신인 분을 여럿 뵈었던 적이 있다. 신입 개발자 지원하는데 포트폴리오가 너무 좋아서 신입치고 높은 희망연봉을 제시해도 면접을 진행했었는데, 그 학원 출신 분들 몇몇을 뵙게 되면서 포트폴리오의 화려함만큼 기초 실력이 탄탄한 분들이 아니라는 사실을 인지하게 되었다. 오랜고민 끝에 결국 채용하게 된 개발자 분은 포트폴리오가 화려하지도 않고, 경력이 긴 분도 아닌, 학부…

데이터 전처리란?

데이터 전처리란?

개발자 면접을 보다보면, 파비의 사업모델은 뭐냐, 기술 역량은 얼마나 뛰어나냐,  비지니스 철학은 뭐냐 같은 종류의 질문을 받는 경우가 있다. (더불어서 돈 많냐, 월급 떼어먹는거 아니냐 등등의 스타트업이 으레 받을법한 부끄러운 질문도 가끔 받는다ㅋㅋ 우리 돈 많다ㅋㅋ) 보안 이슈 때문에 이미 회사 홈피나 다른 블로그 글에 다 공개되어 있는 부분 이상으로 딱히 더 설명해 줄 부분은…

의학계와 데이터 사이언스

의학계와 데이터 사이언스

얼마전 의학 연구직으로 있는 학창 시절 친구를 만났다. 자기네가 데이터 작업을 하고 있는데, 여기에 머신러닝인지 인공지능인지라는걸 쓰면 뭔가 좀 더 획기적인 정보를 찾아낼 수 있냐고 묻더라. 논문을 한 번 읽고, 두 번 읽고, 세 번 읽고, 아무리 생각해봐도 별 대단할게 없는 사회학자들 데이터 리서치하는 수준의 정보들인데, 여기에 머신러닝을 어떻게 써보겠다는건지 잘 이해가 안 되더라. Pabii…

Case study 좀 그만 찾으세요

Case study 좀 그만 찾으세요

학부시절 B모 전략 컨설팅 회사 인턴을 한 후, 평생 다시는 전략 컨설팅을 하지 않겠다고, 내가 그런 서비스를 쓰지도 않겠다고 결심했었다. 여기저기서 “사례”라는 걸 긁어 붙인 후, “분석”이랍시고 화려해보이는 그림 몇 개를 더 추가한 ppt 100장을 제공하는게 전략 컨설팅이라는 걸, 그런 풋내기 시절에 이미 보았기 때문이다. 나이를 먹고 점점 더 경험의 폭과 배움의 깊이가 깊어지면서, 요즘은…

한국에서 본 데이터 사이언티스트 채용 공고

한국에서 본 데이터 사이언티스트 채용 공고

얼마전에 우연히 국내 유명 IT회사의 데이터 사이언티스트 채용 공고를 봤다.   위의 내용은 어디서나 다 찾을 수 있을지 모르겠지만, 다음 중 하나의 논문을 읽고 설명할 수 있는 능력을 요구하는 부분에서 요구 수준이 얼마나 높은지 쉽게 확인할 수 있겠더라. 링크: 논문1, 논문2, 논문3, 논문4, 논문5, 논문6 참고로 위의 6개 논문 중 4번째 논문은 필자의 데이터 사이언스…

데이터 사이언스 강의 vs 컨설팅

데이터 사이언스 강의 vs 컨설팅

학부 3학년 때의 일이다. 둘 중 하나가 되면 그 길로 가야겠다고 결심하고, 외국계 증권사를 노리는 친구들이 들어가는 경영학과 동아리 면접과 박사 유학 가려는 애들을 지원해주는 SK그룹 산하의 고등교육재단 장학생 시험을 봤다. 어쩌다 둘 다 되는 바람에 많은 고민을 했고, 당시엔 동아리를 거쳐서 서울에 있는 외국계 증권사 IBD 에 교포 or 외국 장기 거주 or 아버지…

SPSS로 할 수 있는 걸 굳이 Python 코드로 쳐야되냐?

SPSS로 할 수 있는 걸 굳이 Python 코드로 쳐야되냐?

모 게임사에서 데이터 분석(?)을 한다는 팀에 있는 개발자 친구를 만났다. 아무리 학부시절 절친이어도, 오랜만에 만나니까 회사 내에서 무슨 일을 하고 있을지 좀 알고 가야지 실례가 아닐 것 같아서 이래저래 구글링을 좀 해 봤다. 언론에 공개된 내용만 봤을 때는, 좋은 회사고, 훌륭한 목적을 가진 부서라고 보였지만, 그 팀의 수장이라는 사람부터 사내의 데이터 “분석”을 한다는 사람들의 스펙과…

대학원 머신러닝 강의 레벨

대학원 머신러닝 강의 레벨

얼마전, 증권사에서 퀀트 팀 주니어로 일하신다는 분의 메일을 받았다. 글로벌 자산배분 업무라는 허울 좋은 일을 시작했는데, 현실은 매일 뉴스 체크하면서 직관에 의존한 배분만… 시장의 많은 데이터 속에서 유의미한 Implication을 뽑아내는 능력을 기르는…. 이론적인 모델은 아니더라도 시장의 패턴을 이용해 (Portfolio를) 분산하는 모델을 여러가지 만들어내는… 메일을 읽자마자 10년쯤 전에 초짜 투자은행가로 첫 사회생활을 시작했던 무렵이 떠오르더라. 바로…

진로 상담 in Data Science

진로 상담 in Data Science

학부 4학년 1학기 무렵으로 기억한다. 고교시절부터 오직 Finance에만 관심을 갖고, 언젠가는 한국에 IMF 구제금융 쇼크를 날린 유태계 자본들을 갖고노는 월가 최고의 거물이 되겠다던 부질없는 망상만 갖고 대학과 전공을 정해서 열심히 살던 시절이다. 3학년 때 한국고등교육재단 (SK그룹 산하)의 경제학 전공 장학생으로 선발되고, 그 학생들을 지도(?)해주셨던 경제학과 교수님께 진로 상담차 30분 정도만 시간을 내 주시면 안 되겠냐고…

딥러닝 교육 포기하고 외주업체를 써야하는 이유

딥러닝 교육 포기하고 외주업체를 써야하는 이유

가끔 출장 교육(?)이 가능하냐는 연락을 받는다. 거의 대부분은 일언지하에 거절한다. 그런 보따리 강사하려고 이 강의를 시작한게 아니라, 실력없는 사람들의 3류 강의, 직접 데이터 다뤄본 적이 없는 교수들의 책 속에만 파묻힌 강의에 분노해서, 시장이 좀 교육이 되었으면 하는 기대를 갖고 남는 시간을 활용해서 하는 강의인데, 폰돈 몇 푼 쥐어주면서 “이 강의를 듣고 나면 우리 회사 사람들이…

데이터 사이언티스트가 되는 길

데이터 사이언티스트가 되는 길

데이터 사이언스에 대한 견해를 묻는다는 메일을 하나 받았다. 엉? 견해? 무슨 견해? (중략) 최근에 데이터 사이언스에 대한 관심이 많아진 공대 학부생입니다. 제가 어떤 데이터를 추출하고 분석하여 새로운 유용한 가치를 주고 싶은데, 데이터 사이언스, 맞는 길이겠죠? 다만 한 사람이 그 과정을 전부 하기는 불가능하다고 합니다. 그래서 데이터 엔지니어, 분석가 (도메인 지식), 그리고 수학, 통계의 박사과정을 밟은…