제조업과 빅데이터

제조업체에 근무하시는 분들이 수업에 찾아오거나, 빅데이터 컨설팅을 의뢰하는 경우가 꽤나 있다. 수업에 오신 분들이 수업 막바지에

“그 동안 IT나 Finance쪽 예시는 여러번 들어주셨는데, 제조업에 쓸 부분은 없나요?”

라고 질문하시는 경우가 있는데, 솔직히 말해서 별로 쓸 구석을 많이 못 만났다. 제조업 공정에서 이미지 인식으로 불량을 찾아내는 부분, 설비 노화의 정도를 예측하는 부분 정도가 겪어본 프로젝트이기 때문에 얼핏 떠오르는데, 앞의 예제는 빅데이터 활용이라기 보다는 20년전부터 있었던 불량율 찾는 자동화 시스템이고, 뒤의 예제는 센서 신호 데이터 처리하는 응용통계학 작업이다.

얼마전에 반도체 공정에서 생기는 불량을 잡아낼 수 있는 사람 추천해달라는 요청을 받은 적이 있는데, 반도체가 불량이 어디서 생기는지를 잘 알고 있는 Domain 전문가와 그런 지식을 모델로 바꿀 수 있는 모델러 능력이 결합된 사람이 얼마나 되겠냐고 반문해봤다. 이런 쪽으로 서비스가 있다는 것도 알고, 대기업들이 이미지 인식 쪽으로 석사 이상 공부한 인재들을 영입한 다음에 저런 업무를 주고 있다는 것도 안다. 잘 되고 있을까? 예상대로 직접 만나서 이야기를 들어보면 다들 Domain knowledge가 없어서 답답해하고, 현장에서 잔뼈가 굵으신 분들은 “뭐 딥러닝이라는거 쓰면 잘 된다던데요?”라는 반응들이다. 결국 이미지 인식해서 문제가 있을만한 부분이 얼마나 이상한지만 꼭꼭 집어내는 자동화 프로세스를 만드는 작업을 할 일인데, 인공지능이라고 그러니 알아서 척척척 찾아내 줄 거라고 착각들을 하는건지…

센서 신호 데이터 처리하는 프로젝트 했던 분과 이야기를 나눠보면, 예상대로 신호 데이터를 필터링 하려고 Kalman filter를 쓰고, 거기서 Sequence를 Frequency로 바꾸는 작업을 하셨더라. 오래전부터 있었던 전형적인 통계 모델링 작업의 일부다. 수업 시간에 말했던대로, 같은 아이디어와 방법론으로 센서 데이터만 처리하는게 아니라, IT나 Finance 쪽 데이터도 노이즈 제거 & 패턴 분석 용으로 자주 쓰인다. 냉정하게 말해서 “빅데이터”라는 타이틀을 달면 안 되는 작업들이다.

(Source: 네이버 웹툰, 가우스 전자)

빅데이터란?

그동안 줄곧 주장한대로, 빅데이터란 동적인 행동 패턴을 찾을 수 있는데, 이게 한 두명의 데이터가 아니라 수백만명의 데이터인 경우다. 그래서 동적 행동 패턴이 특정 집단에 나타나는 걸 잡아내는 계산을 쓰고, 이게 기존의 통계학 방법론들이 포커스 하던 부분 (수학적인 Elegancy)에서 벗어나 공학도들이 관심을 보이는 부분 (기계적인 패턴 일치율)에 활용되고 있는 맥락으로 이해하면 된다. 필자는 이런 데이터를 집단의 동적 행동 데이터라고 표현한다.

저 위의 웹툰에 나오는 정의는 필자의 관점에서 보면 틀린 정의다. 데이터 크기만 크고, 집단의 동적 행동을 볼 수 있는 데이터는 아니기 때문이다.

한국석유공사 – ‘국내유가예보서비스’

방송통신위원회나 한국인터넷진흥원 같은 정부기관들을 보면 빅데이터 시대를 준비해야한다며 빅데이터 사업단과 포럼을 만들어 놨다. 그런 기관 중 한 곳에 재직 중인 분이 수업에 오셔서 자기네 사람 뽑는 이야기도 해 주셨는데, 공학도를 뽑아야하는지, 통계학도를 뽑아야하는지 고민이 많다고 하시더라. 수업을 다 듣고는 이게 통계학이라는 것, 담당 업무가 통계학이라는 걸 깨닫고는 통계학과 출신을 뽑았다는 뒷 이야기를 전해주셨던 기억이 난다.

그런 기관들 중 하나로 한국석유공사가 ‘국내유가예보서비스’를 구축한 사례가 있다. SAS 수요예측 솔루션을 도입해, 국내 정유사와 주유소들의 판매가격을 예측할 수 있는 시스템을 구축했다고 하더라. 외부인은 어떻게 봤을지 모르지만, 필자의 눈에는 해외 원유가격, 국내 정유사의 생산비, 주유소별 마진율을 Input으로해서 주유소별 가격을 Output으로 뽑아내는 전형적인 통계 패키지 적용 사례였다. 아마 그런 데이터를 정리하기 위해서 주유소들더러 매일매일 가격을 시스템에 입력해라고 시키는 작업부터 그런 DB가 제대로 돌아가도록 하는 개발자들이 투입되는 비지니스적, 공돌이적 작업이 뒤에 있기는 했겠지만 말이다.

그런데 요즘 저 서비스 페이지에 들어가보면 “빅데이터 분석 사례”라고 크게 자랑을 해 놨다. 글쎄?

대략 4-5년 전 쯤에 주유소 별 유가를 보여주는 “가격비교” 서비스가 나왔을 때, 빅데이터 시대에는 정보가 잘 공유되어서 주유소들이 가격 책정도 경쟁적이 될 수 밖에 없다고 했던 때가 떠오른다. 그 시절에 비하면 위의 “예보 서비스”는 확실히 더 고급 서비스라고 생각한다. 단순히 숫자만 나열한게 아니라 최소한 (Non-)Linear Regression 모델은 한 번 돌린거니까.

어느 언론지를 보니 이걸 무슨 빅데이터 활용사례라고 하느냐고 비난조의 기사를 내놓으셨던데, 단순 가격비교 사이트가 시장의 수준이었음을 감안하면 충분히 박수를 받을만하지 않나? 문제점을 꼬집자면, 뭔가 대단히 복잡한 작업을 했던 건 아니고, 단순히 데이터 모아다가 SAS 패키지 하나 돌린 수준이면서 시대를 앞서가는 서비스인 것처럼 호들갑을 떠는것 정도랄까?

빅데이터 서비스라고 좀 더 자랑을 하려면, 주유소별 predatory pricing 으로 마진율을 역산해서 주유소들마다 등급을 매기는 작업, 유저들이 쓰고 있는 신용카드의 Cashback 서비스와 연동해서 실질적인 최저 가격 계산 작업 정도는 추가가 되었어야하지 않을까? 좀 더 나아가면, 이동 중에 이 서비스 앱을 켜면 전방 어느 지역에서 주유하면 실직적인 최저 가격이 된다는 추천이 되어야 엄지를 치켜세울 수 있는 서비스가 될 것 같다. (이런 서비스는 카드 결제 정보를 갖고 있는 회사들이면 지금도 충분히 시도해볼 수 있을 것 같다.)

물론 이런 계산 & 매칭 서비스를 내놓는데 딥러닝같은 무거운 계산 알고리즘을 써야할 필요도 없고, 철저하게 기획과 통계학적 모델링의 영역이다. 다 떠나서 이걸 “인공지능”이라고 포장하는 뻘짓은 정말 안 봤으면 좋겠다 ㅋㅋㅋ

(Source: 네이버 웹툰, 가우스 전자)

Smart factory 도입과 CRM과 빅데이터

“제조 공정에 인공지능을 도입하면 Six sigma보다 훨씬 더 효율적으로 공장이 돌아간다는 뜻인가요?”

가끔 이런 질문을 받으면 무슨 대답을 해야할지 잘 모르겠더라. 아래의 구질구질한 설명말고 한 줄 요약을 해 주실 수 있는 분께서 댓글로 어리석은 필자를 깨우쳐 주셨으면 한다.

솔직히 제조 공정에 별로 관심이 없던지라 처음에는 Six sigma가 뭔지도 몰랐다. 구글링을 해보니 Motorola에서 불량율 제로를 위한 컨설팅 회사스러운 Business process를 만들어 놨더라. 정규분포 기준으로 ±6σ는 0.000000000000003에 해당하는 값이다. 이거랑 인공지능 도입한다는 이야기가 어떻게 관련되는거지?

그런 대화 중에 받은 느낌은, DB에 쌓아놓은 데이터를 활용하면 인간이 직접 개입해서 Six sigma의 여러 작업 단계를 좀 더 효율적으로 진행할 수 있지 않냐는 기대감이었는데, 필자가 이해한 방식의 Six sigma는 공정에서 문제점이 있는 부분만 손을 댈 수 있도록 공정을 세분화하는 작업이었다. 근데…. 공정을 이렇게 운영하는게 당연한거 아닌가…요???

아모레퍼시픽에서 얼마전에 IBM의 컨설팅 지원을 받아 개인맞춤서비스를 만들었다고 한다. (11번가에서 비슷한 사업 중이라고 홍보했던 적도 있다.) 어느 제조사를 찾아갔더니, 그런 데이터가 있으면 아예 제조 공정에서 개인의 수요에 맞는 상품을 만들어낼 수 없냐고 하시더라. 그거랑 Six sigma가 연관있는건가?

아는대로 맥락을 이해해보면, CRM 최적화하는 “인공지능”을 제조공정 세분화에도 적용하면 재고 관리할 가능성이 낮아질만큼 쉽게 잘 팔리는 상품을 바로바로 만들어낼 수 있지 않느냐는 질문이었다는 짐작이 있는데, 화장품이나 간단한 소비재라면 가능할지도 모르겠지만 워낙 제조 공정이 어떻게 돌아가는지 알질 못하니 함부로 말을 못하겠다.

위에 들었던 그 언론지에서는 아모레퍼시픽이 IBM에서 컨설팅 받아서 내 놓은 개인맞춤서비스가 CRM 데이터를 효율적으로 쓰기 위한 (전통적인) 데이터 분류 작업에 지나지 않는데, 이게 무슨 빅데이터 활용 예시냐는 비판조였는데, 그것과 유사한 맥락으로 그 Smart Factory(?)에 대한 대답을 드리고 싶다. 소비자의 Needs를 분석해서 생산에 바로 연결시키겠다는 맥락은 하나도 변한게 없다고. 아마 CRM 데이터 분석이 좀 더 고도화될 수 있어서 좀 더 세분화된 소비자의 Needs를 알아낼 수 있는 가능성이 있다는 점, 소비자 별 특성을 알아내는데 매출액 레벨이 아니라 상품 클릭 레벨 단위까지 좀 더 구체적으로 볼 수 있다는 점을 제외하면 사실 큰 차이를 못 느끼겠다.

그나저나 공장에서 생산할 제품을 퐉퐉퐉~ 바꾸는거 그렇게 쉬운 일 아니지 않나? 원래 불량율이 ±6σ 수준이었던 공정들에 이런 종류의 Variation을 집어넣으면 불량율이 올라갈꺼 같은데…. 뭐 전문가가 아닌 관계로 요기까지.

(Source: 네이버 웹툰, 가우스 전자)

나가며 – “빅” + “데이터” = 특정 집단의 동적 행동 데이터

빅데이터라는 용어에 대한 개념이 잘못 잡혀서인지, 무조건 데이터로 그래프만 그리면 “빅”을 갖다 붙히고 있는 상황이다. 그런 관점에서보면 잠깐 지나가는 비지니스 트렌드 용어로 끝나게 될 것 같다. 그런데, “빅” + “데이터” = 특정 집단의 동적 행동 데이터 라고 바꿔서 이해하기 시작하면, 왜 DB 설계가 필요하고, 이걸 어떤 맥락에서 활용하게 될지에 대한 포인트가 확확 달라지게 된다.

대형 쇼핑몰 체인 Target에서 10대 소녀의 임신을 부모보다 먼저 알아냈다는 예시처럼 Retail 상품들의 종류가 다양하고, 그 상품들을 구매하는 패턴이 특정 집단에게 공통적으로 발생하는 일부 분야가 아니면 빅데이터 Hype은 사실 큰 쓸모가 없을 확률이 높다. 교보문고는 전자책 판매를 빅데이터 기반으로 하겠다고 나섰다가, 정작 활용한 방식은 아모레퍼시픽 스타일의 CRM이었는지 “별 다를거 없더라”며 예전 방식을 고수하겠다는 식으로 선회했다. 책이라는게 온라인 쇼핑몰만큼 구매가 자주 일어나지 않는 상품이니만큼 Conversion을 찾아서 패턴화하기 굉장히 어려웠을 것이다. 그냥 예전처럼 30대 남성, 20대 여성 같은 타겟팅을 좀 더 세분화하는 수준에서 그쳤을 것이라는게 충분히 짐작된다.

글 첫머리에 들었던 불량품 찾기, 센서 신호로 문제점 찾기 같은 작업이 사실은 이미지 인식이나 데이터 전처리라는 통계적인 모델링 스킬과 Domain Knowledge의 결합이라는 점에서 볼 수 있듯이, 빅데이터 기반 작업이라고 불리는 많은 업무들이 사실은 이전에 했던 일과 크게 다르지 않다. 제조업에서 빅데이터 모델링을 한다고 했을 때 정말 동적 행동 데이터를 갖고 있고, 그걸 활용해서 도움이 되는 회사는 과연 얼마나 될까?

IT나 Finance 데이터 이외에 다른 영역에서 이건 정말 빅데이터라는 느낌을 받은 데이터도 없고, 그걸 어떻게 적용해서 대박(?)을 낼 수 있는지도 잘 모르겠다. 첫째 수백만명의 데이터에서 수십만명씩의 특이 패턴을 분리할 수 있는 수준으로 데이터가 모이는 산업이 IT와 금융시장 이외에 존재하는지에 의문이 있으니까.

제조업에서 쓰겠다는 빅데이터는 혹시 “그런 단어 쓰면 이사진이 좋아하”기 때문이 아닐까 싶다.