Andrew Ng이 틀린 사례 – 1.딥러닝이 우월하다? – 파비 데이터 사이언스 연구소

위의 그래프는 Andrew Ng이라는 전세계 AI(?) 분야에서 가장 권위자라고 알려진 사람의 강의 슬라이드 중 하나다.

잘 모르는 사람들이 무조건 “딥러닝, 딥러닝”이라는 노래를 부르도록 만들게 되는 자료이기도 하다.

현실을 하나 알려주면, 위의 그래프는 틀려도 보통 틀린게 아닌, 완전히 틀린 설명인데, “딥러닝”이라고 불리는 Neural Network 모델은 아래의 문제점을 갖고 있기 때문으로 요약할 수 있다

최대 Performance는 MLE (최우추정법)라는 기초 통계학 계산법으로 얻을 수 있음을 이미 100년도 더 전에 증명했다
일반데이터에서는 Least Square (최소자승법)가 가장 우월한 계산법임을 300년전에 인류역사 최고의 수학자 가우스가 증명했다

우선 수학적인 엄밀성을 위해 필요한 요소를 제쳐놓고 (꽤나 자세한 직관적인 논증을 파비클래스 강의 초반에 진행한다. 오해 쌓인 질문이 들어와서 글 하단에 짧게나마 답변을 첨부해놨다.), 위의 두 명제에 대한 반례는 데이터가 Categorical일 때, 굉장히 강한 패턴이 있는 데이터일 때에 국한되는데,

같은 프레임에 끼워넣은 이미지 인식,
같은 문법체계 위에 작동하는 자연어 처리,
같은 규칙으로 전략적 선택을 하는 바둑 같은 게임

이 대표적인 반례가 된다. 말을 바꾸면, 그런 특이한 데이터가 아닌 모든 데이터에서는 여전히 LS, MLE 같은 기존 계산법들이 훨씬 더 우월하다. 우월한 점이 여럿 있지만, 가장 결정적인게 계산비용인데,

Graph model들은 기본적으로 계산비용이 너무 비싸다
모든 Graph model은 데이터 패턴이 달라지면 새로 만들어야한다. 근데 계산비용이 너무 비싸다

1억들여 만든 하드웨어 시스템으로 1주일간 기다려야 결과값이 나오는 Neural Network를 돌리고 있을래? 그런데 데이터 형태가 바뀌면 또 다시 같은 시간을 기다려야하는 시스템을 돌리고 있을래?

아니면 수학&통계학적 지식을 갖고 간단한 공식으로 1분만에 바로 답을 얻을래? 공식쓰면 심지어 Excel로도 바로 답을 찾을 수 있는데?

더불어 Outlier 몇 개에 시스템이 쉽게 붕괴되는 Boosting 계열 모델의 문제점을 그대로 갖고 있는 점, Pruning을 위해 랜덤신(神)의 자비심에 기대야하는 Drop-out, 변수별 효과 추적의 귀찮음 등등 헤아릴 수 없이 많은 문제를 가진 계산법이 어쩌다가 이렇게 인류 전체를 속이는 사기의 중심이 되어 버렸을까?

최고 명문대 중 하나인 Stanford 출신 교수가 어떻게 저렇게 오류 가득한, 그래서 세상을 완전히 잘못된 방향으로 이끄는 거짓말 그래프를 당당하게 자기 강의에 쓸 수가 있을까? 본인이 학자적 양심이 눈곱만큼이라도 있고, 사기꾼이 아니라면 정말로 몰라서 저러는 걸텐데…

딥러닝이 반드시 우월하지 않은 이유 논증

오해 섞인 질문이 들어와서 짧게 답변을 했다.

답변:

MLE는 분포함수를 알 수 있을 때, 분포함수가 없을 때는 일반적으로 Least Square Estimator (LSE)가 Best fit을 알려준다는 증명은 굳이 언급하지 않아도 되는 정도의 지식 수준을 갖추신 분이라고 짐작합니다. (OLS, GLS 같은 이야기도 제쳐놓겠습니다.)

예측력이라는 표현이 결국이 Fitting일테니까, 우선 2차 moment의 값이 최소화되는 이른바 minimum variance 라는 측면에서 보면, 정규분포 가정아래, MLE, LSE가 best fit이니까 (이미 최소 분산이니까) NN의 최대 performance도 같은 값을 주겠죠. 사실 NN은 2차 moment 값이 안 나오는 문제가 있긴 합니다만…

NN이 값을 주는 1차 moment로 내려와서, MLE, LSE vs NN 이라고 비교해볼 때, 선형함수가 Best fit이 나오는 MLE의 정규분포 케이스라면, NN의 최대 performance도 같은 값이 나오게 됩니다. NN도 궁극적으로는 (Logistic) Regression이 Nesting 형태로 결합된, Regression 기반의 모델이니까요.

정리하면, 오차항이 정규분포를 따르는 경우에는 1차 moment에서 (G)LS = MLE만 성립하는게 아니라, (G)LS = MLE = NN도 성립한다는 뜻입니다. 말인즉슨, 2차 moment도 (거의) 동일해야겠죠. LS와 MLE의 2차 moment는 degrees of freedom 만큼 차이가 있지만, asymptotic하게 동일하다는 걸 아실겁니다. NN은 2차 이상의 moment 값이 없어서 비교하기가 좀 그렇기는 한데, 어차피 LS=MLE보다 더 minimum variance는 불가능하기도 하고, 2차 moment가 없어서 검정력에 한계가 있고, 엄청난 계산비용을 지불해야되겠죠.

검정력에 한계가 있기 때문에 training, test을 나눠서 test set 데이터에서의 1차 moment값 유사성을 볼 수 밖에 없는 모델이 되는겁니다. 통계학에서 흔히 쓰는 t-test, F-test, Chi-squared test 같은게 불가능한 이유이기도 합니다. Flexibility를 위해 Rigor를 포기한 모델이죠. Performance가 무조건 좋다는 명제가 맞으려면 어디서든 잘 맞아야될텐데, Rigor가 망가졌으니 데이터 셋에 따라 천차만별로 움직이는 모델이 될 수 밖에 없습니다.

3차이상 moment를 봐야한다는 이야기는, 타겟변수의 오차항이 포아송분포, 정규분포 등등의 일반적인 분포함수를 따르지 않는 데이터라는 이야기입니다. 포아송은 평균=분산 이어서 1차, 2차 moment의 움직임이 하나로 엮어있고, 정규분포는 3차 moment이상은 모두 같거든요.

말을 바꾸면, NN이 더 “우월”하려면 비선형함수가 Best fit인 케이스, 그런 데이터가 비슷하게 계속 반복해서 나오는 경우 밖에 없습니다. 더 “우월”하다고 주장하려면 Fitting 이외의 다른 요소들에서라도 나은 점이 있어야될텐데, 모델 파워 검증도 데이터 의존적이고, 계산비용은 엄청 비싸거든요. 말을 바꾸면 모든 면에서 열등한데, 그나마 Fitting이 좋았던 모델이 NN이건만, 정규분포, at least 랜덤분포, 기반의 데이터에서는 NN의 장점이 하나도 없다는 결론이 나옵니다.

일반 명제로도 이야기할 수 있는데, 모든 머신러닝 or 데이터 마이닝 모델들이 더 “우월”한 구간은 “예측력이 뛰어난 함수”가 비선형 함수인 경우에 국한됩니다.

그런데, 알고 계시는대로 타겟변수(Y)의 오차가 정규분포를 따르고 있는 데이터가 대부분이잖습니까. 데이터 작업 대부분의 경우에 MLE = LSE, 즉 선형함수가 Best fit을 줍니다.

예외적인 데이터가, 1. 오차가 정규분포 (at least 랜덤)를 따르지 않는, 2.비선형 함수가 타겟 함수인 데이터, 3. 항상 같은 패턴만 꾸준히 반복해서 나오는 데이터일텐데, 위에 쓴대로 A.이미지 인식, B.자연어 처리, C.게임 규칙을 따르는 전략적 선택 같은 데이터겠죠.

위의 논증에 기반해서, 특정 형태의 데이터 셋이 아니라면 (G)LS, MLE를 놔두고 NN을 써서 이득을 보는 부분이 없는데 저런 그래프로 무조건 NN이 좋은것처럼 호도하고 있다는 결론이 나오게됩니다.

질문하신 분이 통계학 대학원 전공자라고 해서 수학적 깊이를 좀 더 하면서도 자세한 설명을 생략했습니다만, 위의 논증으로 이해가 되었으면 좋겠습니다.