[공지] MSc in Artificial Intelligence 입학시험 문제 공개

MSc in Artificial Intelligence Class of 2021-2022 신입생 대상으로 치른 입학시험 문제입니다.

문제 아래에 간단한 해설을 추가합니다

간단 해설

Q1 – Endogeneity & Instrumental Variable

De-mean시켜서 상수항을 제거한 모델. (문제 풀기 쉬우라고 가정 추가했음)

1.1 – Mis-specification error (Omitted variable case)가 있을 때 Bias, Inconsistency – 일상적인 Regression작업에서 필요한 변수가 부족한 경우, 즉 데이터가 불충분할 경우에 흔히 발생할 수 있는 문제, x_2, x_3가 서로 orthogonal하면 Omitted variable bias가 없었겠지만, correlation이 0.57이라고 주어져 있음 (실제로는 데이터가 없어서 계산 못했을 숫자, 문제의 목적상 가정). 실제 estimator 구했을 때 OVB의 형태 수학적으로 표현, Variance 형태 수학적으로 derivation, 무슨 뜻인지, 어떤 의미를 갖는지 설명까지 추가해야 full mark

1.2 – 위에서 논증한대로 변수가 부족해서 생긴 문제를 해결하는 방법 1번 제시. Instrumental variable (IV) Estimation 을 이용한 대응, 적절한 IV 조건 등 – Orthogonality condition, relevance condition, how relevant? 를 따질 수 있는 방법

1.3 – 방법 2번 제시. Measurement error가 있는 데이터로 OV를 대체시 얻는 장점 vs. 발생하는 문제 – vector space 관점에서 missing이 채워졌지만, 여전히 attenuation bias는 피할길이 없음. attenuation이라고 방향을 확정하는게 도움이 되는 회귀분석 계산이었는지에 따라 이득을 보는지 여부 결정

IV의 퀄리티가 나쁘지 않다면 IVE를 쓰는게 더 좋지만, 적절한 IV를 못 찾은 경우 Attenuation bias를 감안하고 ME있는 변수를 쓰는게 타협점이 된다는 현실 상황을 다 설명하면 Full mark

1.4a – DNN 은 단순한 Non-linear pattern 계산 알고리즘일뿐, 위의 문제를 해결하지 못함을 논증

1.4.b – Big data는 단순히 숫자가 많은 데이터가 아니라, 패턴이 여럿 섞인 데이터임을 지적하고, 단순히 데이터가 많아진다는 이유로 DNN의 Non-linear pattern 추적 알고리즘이 위의 Endogeneity cases에는 별 도움이 안 됨을 지적

Q2 – Basic Time Series

2.1 – MA(5) 인 Autocorrelation을 가진 데이터에 Hypothesis Testing의 Trinity가 작동하는지

2.2 – Lagged variable이 regressor일 때 MA(k) process가 영향을 받는지

2.3 – MA(k) -> AR(1)으로 치환되는 가능성 및 그 때 수식 전개, k값의 적절 범위, k=5는 적절한가?

2.4 – AR(1)과 Lagged variable regressor 일때 Inconsistency가 발생할 수 밖에 없는 구조 논증

2.5a – Gaussian Normal은 Linearity 모델, Non-Gaussian은 Non-linearity 모델이 CUAN이라는 논증

2.5b – DNN은 Non-linear pattern을 잡아내는 모델이므로 Non-Gaussian에 효율이 있으나, AR(1)에서의 Inconsistency는 해결 못 함. Laplace처럼 분포함수가 known인 경우 MLE가 DNN보다 우월한 계산. 왜? 같은 estimator라고해도 분산이 작을테니까. + Q1과 마찬가지로 데이터가 무한대로 늘어난다고해서 inconsistency 문제가 개선되지는 않음. 여전히 AR(1)으로 인한 Inconsistency는 남아있음

Q3 – Heteroskedasticity

3.1 – Two heterogeneous sample일 경우 OLS는 inefficient, GLS는 heterogeneity를 포함하도록 변환하면 efficient (BLUE)

3.2 – OLS를 Null, GLS를 Alternative로 놓은 Hypothesis test, MLE와 FGLS 중 적절한 계산법을 기준으로 Finite sample property를 따지는 문제

3.3 – 2개 OLS 묶음, MLE는 각각 BLUE, CUAN, 3번째 dummy OLS 계산법은 Error에 Heterogeneity 존재, Consistency는 셋 모두 만족하므로 Infinite sample이라고 해도 특별한 이득은 없음

3.4 – 3.3의 계산법들로 Hypothesis test를 진행할 경우, GLS 대체 계산법으로서 2개 OLS, MLE는 상동, finite sample에서만 MLE가 n -> n-1 만큼 차이날뿐. Heterogeneous error는 사실상 OLS와 같은 계산법

3.5 – 구조적으로는 유사함 (RSS – RSS1 – RSS2) But, Chow Test는 시간 변화에 따른 structural change를 보는 검증, 이 문제는 같은 시점에 Two heterogeneous sample임.

3.6 – DNN의 Non-linear 계산이 우연히 GLS의 Transformation과 같을 때만 성립, 그 외에는 DNN은 계산비용만 높고, variance efficiency는 떨어지는 결과값을 줄 것

3.7 – (3)의 가장 열등한 계산인 dummy OLS와 DNN 중 어느쪽이 variance efficiency가 낮을지는 모르지만, 그 외에는 DNN은 무조건 열등한 계산법. 심지어 DNN은 variance 계산에도 추가적인 계산비용을 지불해야함. 데이터 숫자가 Finite인 경우에는 OLS는 Unbiased라도 만족하지만, DNN은 Unbiasedness도 보장할 수 없음. Neural Net 계산에 들어가는 계산비용을 제외하고라도, DNN은 최악의 계산법

(4번 문제는 채점 기준 상세 제시)

Q4 – Basic Dynamic Optimization

4.1 – H = discount factor x ln(b_t) + lambda (transition law) 셋팅 1점, a, b로 미분시 a는 =변화율, b는 =0 성립 2점, 식 변환 1점

4.2 – 4.1의 식이 =0 을 만족시키는 (a*,b*) 값 – 1점, 주어진 영역에서 반드시 1개 밖에 나오지 않음을 (수식 or 논리로) 증명 – 1점

4.3 – Phase-Diagram 셋팅에 2점, Linearization 식에 1점, Jacobian에 1점, Steady state이 local saddle-point인 것을 Phase-diagram 논리로만 증명하면 1점. Eigenvalue를 이용한 수식으로 증명할 경우 2점

4.4 – Discount factor의 예상치 못한 감소로 b dot 그래프의 좌측 이동 – 방향 전환 1점, 예상치 못한 감소로 식 변환 논리 추가시 1점, 새로운 saddle-path로 움직이는 경로와 속도에 대한 논리를 모두 제시할 경우 각 1점

4.5 – Hamiltonian을 continuous time Bellman 형태로 바꾸는 문제 – Time 0 ~ Infinity를 Delta t로 구분되는 2개의 구간으로 나눈 후, Delta t ~ Infinity 구간을 next period value function으로 셋팅할 경우 1점, Iteration을 통해 Envelope condition을 추출하면 2점, Euler condition 도출시 1점, 둘이 동치임을 증명하면 1점 – 각 단계별로 논리적 전환에 문제가 있을 경우 -1점씩

4.6 – Reinforcement learning 모델이 Bellman equation 문제라는 점을 지적하고, (control variable, state variable, policy function 등등을 비교) – 1점, 다루는 문제가 continuous time일 경우 or (generally) infinite series 일 경우에 Bellman approximation으로 풀어낼 때 Hamiltonian으로 변형해서 풀 수 있음을 위의 (5)의 결과와 비교해가며 설명할 경우 2점 – 각 단계별로 설명의 논리적 전환에 문제가 있을 경우 -1점씩

1. 시험 범위

Boot Camp 강의 내용 기반 시험

수리통계학 기초 일부, 동적최적화 기초 일부
SIAI 교육 과정 해당 과목
- MSc DS (BSc DS) – Mathematical Statistics 1 (일부)
- MSc DS (BSc DS) – Mathematical Statistics 2 (일부)
- MSc DS (BSc DS) – Reinforcement learning (Science Track) (일부)

*MSc DS는 예비 석사 과정, BSc DS는 학부 과정,

*BSc DS 최종학년은 MSc DS와 동일한 커리큘럼 – 학부 편입 2022년 3월부터 예정

대학원 신입생 필수 수학&통계학 기초 지식 중 다루지 못한 내용

MSc DS (BSc DS) – Mathematical Statistics 1, 2의 일부
MSc DS (BSc DS) – Mathematical Statistics 3 전체
MSc DS (BSc DS) – Bayesian Statistics 1, 2
기타 – 빅데이터에 대한 제대로 된 정의, 현실 케이스의 추상화 모델링 능력 등등

시간적 제약 및 난이도 하향 조정을 위해 일부 만을 평가 대상으로 삼았음을 밝힙니다.

2. 출제 의도

SIAI 의 MSc DS 및 MSc AI 과정 설립 목적 반영

MSc DS 졸업생의 기본 소양인 Data Analytics / Data Science 모델링 능력 검증
- 단순한 지식 암기력 X, 현실 문제에 대한 논리적 해결력 O
- 주어진 상황에 맞게 세밀하게 조정된 논리를 적용할 수 있는지를 점검
기본적인 수리통계학 및 동적최적화 지식 검증
각각의 DGP (Data Generating Process)에 맞는 모델을 쓰는데 필요한 논리를 쌓아올릴 수 있는지 검증
DGP에 대한 고려없이, DNN, Reinforcement learning 등등을 무작정 계산에 쓸 때 발생하는 문제를 지적할 수 있는지 검증

고득점 포인트

표면에 드러나지 않는 핵심 조건들 파악 여부 확인
- 즉 현실 프로젝트 적용시 실체화되는 조건들 파악하는 능력 검증
학습한 지식을 주어진 상황에 맞춰 적절하게 변형해 적용하는 능력
논리적 추론 단계가 잘 정리된 답안지

3. 외부 공개 목적

시험 문제 외부 공개 목적

MSc AI 신입생에게 기대하는 수학, 통계학 지식 및 활용방식에 대한 가늠자 역할
MSc DS 졸업생, BSDS 졸업생들의 훈련도에 대한 신호효과
향후 MSc AI 지원자의 눈높이 조정
- 충분한 실력없이 욕심 많은 무모한 지원 방지
- MSc DS과정을 단기간의 개인 학습으로 극복할 수 있다는 착각 방지
- (아무나 MS 트랙의 MSc DS, MSc AI 하는게 아니라는 현실론을 일깨우기 위해)

각 문제 별 Big Data, (Deep) Neural Net, Reinforcement learning 관련 Sub question 추가 의도

속칭 빅데이터, 인공지능이라고 불리는 계산과학에 수학, 통계학 지식이 쓰이는 양상 소개
학부 수준 or 예비 석사 수준 Data Science 교육에 필요한 수학, 통계학 레벨 규정
수학, 통계학 훈련도를 갖춘 인력이 현장의 개발자들과 방법론으로 논쟁할 수 있는 토대 제공
코드 몇 줄만으로 자칭 Data Scientist인 인력과 현재 시장 상황에 경종을 울리는 계기(?)

4. 정리 및 향후 계획

MSc AI Boot Camp 연간 운영 계획 취소
MSc AI 입학 시험만 진행

시간적 제약으로 다루는 내용의 범위가 제한적인 과정이었고, 그에 따라 난이도를 낮췄음에도,

국내 명문대학 관련 석사 학위가 있는 학생들도 단기간에 쉽게 따라오지 못하는 것을 확인하는 강의를 거친 덕분에,

단기간에 준비할 수 있다는 헛된 희망을 가지는 일이 없도록,
단기 코스가 아니라 1년간 MSc DS를 거치면서 제대로 훈련된 인재로 성장할 수 있도록

MSc DS를 뛰어넘어 바로 MSc AI 를 들어올 수 있는 기회를 주는 단기 강의를 더 이상 제공할 필요가 없다는 결론을 내렸습니다.

진정 제대로 된 실력을 갖춘 일부 학생들이라면 상기 공개된 시험 문제만 보고서도

학부 교육 및 개인적인 훈련을 통해 충분히 훈련가능하다는 판단 아래,

Boot Camp 없이, 동일 난이도의 수리통계, 베이지안, 동적최적화 범위로 입학시험만 매년 1회 진행합니다.

자세한 내용은 SIAI – Apply의 Math & Stat for MSc AI 강의 공지를 확인하시기 바랍니다.

+ 시험 후에 MSc AI Boot Camp 수강생들에게 보낸 글의 일부입니다.

시험 하나 못 쳤다고 좌절할 필요는 없고, 자기한테 MSc DS – MSc AI가 맞는 트랙인지 한번 깊게 고민해보고 지원하라고 말씀드리고 싶습니다. 수학이라는 도구를 이용한 추상화와 논리적 사고력은 하루 아침에 쉽게 길러지는게 아닙니다. 이번에 겪으셨겠지만, 파편화된 지식을 엮어, 문제를 풀어내는 실타래를 만드는 능력은 시간을 투자해 지식을 축적하는 암기력과는 별개의 능력입니다.

졸업 못할 학위에 지원하는게, 죽을 고생해서 어려운 지식을 배웠는데 실타래를 못 만들어서 쓰질 못하는 학위에 지원하는게, 과연 의미가 있는 일일까요?

다음주 월요일에 나가는 글 제목이 “MBA in AI BigData만해도 업계 상위 1%일텐데요?” 입니다. MBA 학생들한테 자부심을 가지라고, 개강하고 9월에 낼려고 했던 글인데, 시험 점수를 보니 빨리 올려야 될 글인 것 같습니다ㅋ

前 MSDS, 현 MSc Artificial Intelligence 입시시험 후기 시리즈