인공지능 마케팅, 거대한 사기의 끝

Computer Science 학계에서 (Computer Engineering 말고) 머신러닝이라는 계산 알고리즘에 관심을 가진 적이 대략 3번 정도 된다. 70년대 후반에 대기업 및 학교들이 대형 컴퓨터들을 비치해서 펀치 기계로 이런 저런 명령어를 입력하는 단순 알고리즘을 만들 때가 첫번째고, 90년대 중반에 메모리 가격 폭락으로 하드웨어 가성비가 좋아졌을 때가 두번째, 그리고 2008년 이래 이미지 인식 정확도가 눈에 띄게 좋아지고 난 다음에 세번째라고 보면 될 것 같다.

구글의 이미지 서칭 기능이 엄청난 정확도를 보여주면서 CS 학계에서 이미지 인식 알고리즘에 대한 또 한번의 “혁신(?)”이 생기는거 아닌가는 바람이 불 뻔 했지만, 얼마지나지 않아 그 정확도의 상당 부분은 이미지 데이터 베이스 정리로 나온 결과물이지, 정작 이미지 인식 알고리즘에서 혁신이 있어서는 아니라는 말이 돌면서 분위기가 많이 시들해졌던 걸 들었다.

요즘 일반에 쓰이고 있는 이미지 인식 알고리즘은 이미 2010년 이전에 나온, 데이터 처리라는 측면만 놓고 봤을 때는 PCA 구조에서 크게 벗어나지 않는 알고리즘이 쓰이는 것으로 알고 있다. 아래의 그림은 최근에 구글 이미지 인식을 이용한 장난질(?)의 결과물이다. 보시다시피 데이터 베이스가 잘 갖춰져있지 않은 경우에는 비교 이미지 인식률이 뚝 떨어진다. (상황이 이런데 중국에서는 마트에 가면 사람 얼굴을 인식해서 자동으로 결제도 되고, 교통 법규를 위반하면 벌금도 매기고… 라는 말을 하더라…)

(Source: Google.com)

인공지능 (X), 패턴인식 (O)

알파고가 이세돌을 제압했을 때부터 지금까지 줄곧 주장한대로, 인공지능이라고 불리는 컴퓨터 알고리즘은 Self-learning을 하는 구조가 아니라, 단순히 데이터 속의 패턴을 인식하는 여러가지 계산법 중 하나에 불과하다. 이런 인식이 시장에 널리 퍼지지 않은 탓에, 여전히 많은 사람들이 인공지능에 대한 막연한 기대가 있고, 밑도 끝도 없이 무조건 AI라는 듣기 매우 거북한 단어를 IT업계 곳곳에서 계속해서 들을 수 밖에 없다.

그런 믿음을 깨주는 재밌는 Joke를 하나 가져와봤다.

(9gag.com)

부모님: 니 친구들이 다 우물에 뛰어들면 너도 따라갈래?

아이: 아니요!

머신러닝 알고리즘: 예!

우습게 들릴지 모르겠지만, 이게 머신러닝 알고리즘의 현실이다. 우물에 뛰어들면 죽는다는 지식을 갖고있는 인간은 독립적인 선택을 하겠지만, 외부 입력 정보 없이 구조화된 입력 데이터에만 기반한 패턴 매칭 알고리즘인 머신러닝은 독립적인 선택이 아니라 데이터 의존적인 선택을 한다. 말을 바꾸면, 기존의 데이터에서 가장 자주 나타나는 패턴, 혹은 지정하는 패턴을 그대로 따라가도록 만드는, 지극히 통계학적인 계산 결과물에 불과하다. 가끔 이런말을 하면 무개념인 사람들이 “딥러닝은 다르다”는 망발을 하는데, 그거 그냥 Tree 방식으로 계산하는 머신러닝의 여러 계산법 중 하나다.

스타트업 사기꾼들

얼마전 모 대기업의 고위직 분께서 시간을 좀 내달라고 여러 채널로 부탁하시길래 계속 거절하기 죄송한 마음에 식사 자리에 나간 적이 있다. 자기네 회사가 어느 스타트업을 인수하려고 하는데, 이 회사가 기술력이 있는 회사인지 도무지 알 방법이 없다며 도움을 요청하시더라. 뭐하는 스타트업이길래 그렇게 큰 금액을 들여서 인수하시려고 하냐고 여쭤봤더니, 자연어를 처리해서 기존의 콜 센터를 없애버릴 수 있을만큼 실시간 대화가 가능하도록 만들어 준단다.

순간 아래의 사건이 생각났다.

(Sixthtone.com)

중국의 어느 스타트업이 자연어 처리 (속도)의 끝판왕이라고 할 수 있는 실시간 통역 or 동시통역을 할 수 있는 알고리즘을 만들었고, 그 정확도가 매우매우매우 높다는 홍보가 있었다. 요즘 다들 중국의 대국굴기에 놀라고, 중국에서 여러 놀랄만한 기사가 나오고 있기 때문에 관심이 많았던 것 같은데, 필자는 그 말을 듣는 내내 갸우뚱~ 했다. 일상 회화들을 데이터 베이스에서 불러와서 바로바로 처리하기도 버거울텐데, 전문 용어까지 세부 전공 분야를 바로바로 찾아내고 척척 바꿔줄 수 있다고?

예를 들어, Finance에서 Security라는 단어는 주식, 채권 같은 “증권”이다. 근데 비 관계자들은 이 단어를 “보안” or “안전”과 관계된 단어로 이해할 것이다. 이런 영어 단어가 하나 둘이 아닌데, 거기다 전문 용어는 데이터 베이스 만들려면 엄청난 번역 데이터를 새로 만들어넣고, 경우의 수가 훠얼씬 더 많아질텐데, 실시간 처리를 다 할 수 있다는게 충분히 놀랍지 않나? 당장 전문 용어 번역 데이터 베이스를 만들었다는 사실이 너무 쇼킹했었다. 기초 데이터를 만들기 위해서 초특급 전문가들을 번역에 투입시켜야할텐데, 전문가 1-2명 뽑아서 몇 시간 일 시키기도 비용이 만만치 않은데, 그 비용을 감당할 수 있다니ㄷㄷㄷㄷ

누군가 “머신러닝이 아니라 딥러닝으로 하면 데이터 없이도 다~ 됩니다”같은 망발을 했겠지. 이게 무슨 시뮬레이션 데이터 넣어서 해결할 수 있는 문제도 아니고….하~

아니나 다를까, 장막 뒤에 동시통역사 한 명을 불러놓고 시연을 했다는 기사가 났다. (위의 뉴스 스크랩 참조)

(AI 때문에 사람이 직장을 잃는 4차산업혁명말고, 사람 때문에 AI가 직장을 잃는 5차산업이라는 저 드립은 재밌어서 국내 유머사이트에서 퍼왔다. 출처가 기억나지 않아서 원 저작자분께 Credit을 드리지 못함을 미리 사과드린다.)

요즘 생각해보면, 소위 말하는 스타트업 사기꾼들이 인공지능에 대한 과장된 기대를 더 증폭시킨 것 같다. 사실 인공지능이 별 거 없는 패턴 매칭이라는 사실을 VC들이 제대로 인지하고 나면 투자를 안 할 것이고, 언론 입장에서는 독자를 끌어들일 수 없는 구조인데, 마침 검증 제대로 안 된 스타트업들이 이것저것 다 된다고 썰만 풀고 돈만 받고 먹튀하는 일이 자주 생기니까, 먹튀했다는 뒷 이야기를 언론이 제대로 전달해주지 않으면 일반인들은 인공지능이라는 단어만 기억할밖에.

스타트업하고 있는 필자 입장에서 말이 조심스럽지만, 그동안 만나봤던 VC들 숫자가 상당한데, 당장 우리회사의 비지니스 모델도 제대로 이해 못하는 VC들이 거의 대부분이었던 걸 생각해보면 더 화려한 결과물이 나온다는 주장은 제대로 이해 못한채 눈에 보이는 부분에만 혹해서 투자금을 밀어넣은 경우가 꽤나 될 것 같다.

-중국의 AI 차량 시연 영상: 자동감지 도어 (좌), 자동정지하는 자율주행차 (우)

AI마케팅, 거대한 사기의 끝

알파고를 7천억(?)에 구글에 팔았던 데미스 하사비스의 최근 인터뷰 하나를 봤다. 그 기사 아래의 댓글을 보면, “저 인간은 알파고 이후로 일을 안 하는거 같다. 2-3년 안에 다른 분야에 다 인공지능이 적용될 것처럼 말하더니 아직도 단순한 게임 몇 개에 겨우 적용하는 수준이잖아.”라는 식의 혹평이 달려있더라.

그 인터뷰에서 데미스 하사비스는 자기들이 했던 Neural Net 기반의 계산법으로 “강”인공지능을 만드는건 매우 어려워보인다고 솔직하게 시인을 하더라.

아마 당사자는 구글에 알파고 알고리즘을 팔 때부터 알고 있었을 것이고, 구글 CEO도 딥마인드를 인수하면서 그런 지식을 갖고 있었을 것이라고 생각한다. (아니 그렇게 믿고 싶다. 필자같은 초짜도 단번에 알았던 거니까)

굳이 따지자면, 아직도 게임 몇 개에 겨우 적용하는 수준이라고 답답하다는 혹평 댓글을 달았던 분은 속았던 것이다. 구글의 AI 마케팅이라는 거대한 사기에, 알파고라는 대형 퍼포먼스에 완벽하게 속아 넘어갔던 것이라고 봐야한다. (어느 스타트업 관계자 친구는 사람들이 AI가 조류독감이라고 하질 않는 것만해도 구글의 AI마케팅은 자기 할 일을 다 한 거란다ㅋㅋㅋ)

사실 구글만 AI마케팅을 했던 것도 아니고, 위에 언급한대로 수많은 스타트업과 VC들이 자신들의 이익을 위해 과장된 AI마케팅을 진행해왔다. 블록체인 마케팅이 끝물에 다다른 것처럼, AI마케팅도 슬슬 동력을 잃는 느낌이다.

나가며 – What’s Next

약 2년 남짓 동안 통계학 공부를 열심히 해야 머신러닝을 제대로 이해할 수 있다고 블로깅을 해 왔다. 전문 블로거가 아님에도 꽤나 긴 시간 이렇게 장문의 글을 써 올 수 있었던 에너지는 거대한 사기에 속아넘어가는 일반인들에 대한 안타까움(?), 교육자적인 열정(?), and/or 배운 사람의 노블리스 오블리주(?)였다기보다, 사업하면서 만나는 VC, 개발자, 꼰대를 비롯한 “통계학 모르는 사람들“의 속을 긁는 오해로 촉발된 활화산같은 분노였었다고 솔직하게 고백한다.

필자의 분노 섞인 블로깅과 관계없이, 그들이 말하는 AI가 더 이상 자신들이 기대했던 인공지능이 아니라는 걸 인지하시는 분들이 점점 늘어나고 있다. 최소한 기업들과의 외부 미팅에서 “통계학 모르는(데 끝까지 AI전문가인체 하는) 사람들“을 만나는 비중이 확확 줄어드는걸 느낀다. (제발.. 누울 자리를 보고 발을 뻗으시면 안 될까요?ㅋㅋ) 물론 그들 대다수가 “해봤더니 안 된다며?” 라던가, “AWS에 있는 알고리즘 복사해서 붙여넣어봤는게 샘플 데이터에서만 작동하고 딴 데는 안 되던데요?” 같은 경험적 반증에 기반해있지 이론적인 이해와 논리적인 결론에 근거하고 있지 않다는 점이 좀 아쉽기는 하지만, 거대한 사기에 대한 필자의 주장에 공감해주시는 분들이 늘어나는 점은 반갑게 보고 싶다.

이게 “신기술“이 아니라, 인류가 오랫동안 알고 있었지만 쓸 곳이 별로 없었던 좀 복잡한 “계산방법” 중 하나라는 사실이 곧 대중들에도 널리 알려질 것이라고 본다. 오늘 신문지상에 나오는 인공지능이란 표현은, 수학과 통계학은 깊이있게 모르지만 어찌됐건 꿰어맞춰서 이 세상 모든 것을 다 자동화 시켜버리고 싶다는 공돌이들의 환상과 대용량 데이터를 처리할 수 있는 하드웨어적, 소프트웨어적인 지원이 맞아들어가는 몇몇 영역을 비지니스에 활용한 마케팅에 불과했다.

그동안 본 블로그를 통해 수학, 통계학 모르면서 전문가라고 우기는 집단을 “공돌이”라는 속어를 써서 비아냥거린 점에 좀 무거운 책임감이 느껴지지만, 다른 한편으로는 박사시절 만났던 스탠X드 공대 출신 지도교수부터 그 이후로 학회에서, 연구소에서, 직장에서, 비지니스 미팅에서 만났던 “공돌이”들 중에 수학, 통계학적으로 존경을 받을 수 있는 수준의 지식을 갖춘 상태로 “인공지능”이라는 단어를 읊는 사람을 여태 본 적이 없었다는 변명을 끝으로 이제 분노의 블로깅은 그만 정리할 생각이다.

앞으로는 회사 사업 모델과 관련된 AdTech, MarTech 비지니스 이야기에 초점을 맞춘 스타트업 블로그 본연의 모습으로 운영된다.

우리 회사 서비스 곧 출시될텐데, 많은 분들께서 써 주시면 좋겠다.

공지1: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

공지2: 위와 같은날을 기준으로 댓글을 모두 삭제합니다. 추후에는 댓글 서비스를 제공하지 않습니다.