ChatGPT 시리즈 – ②’인간 피드백형 강화학습(RLwHF)’의 장점

Keith Lee 2023-02-07 00:002023-10-24 19:24 2023-10-24 19:24

5.강화학습(Reinforcement Learning)의 수학적 배경

위에서는 우리가 수식을 알고 있다고 가정했다.

근데 현실적으로 우리가 수식을 알고 있는 경우는 과연 얼마나 될까?

대부분의 도전은 우리가 문제를 정의하고 나면 수학 도구가 다 있기 때문에 간단하게 풀어낼 수 있다.

(단지 그 수학이 배우기가 쉽지 않을 뿐이지만, 그것도 계산기만 잘 만들면 가능하다.)

진정한 도전은 바로 그 ‘문제를 정의’하기가 어렵다는 점이다.

학문마다 이런 상황을 풀어내는 방식이 제각각이나, 계산과학을 활용하는 일부 분야에서는

주어진 데이터로 그 수식을 역추적 해 보자는 접근법을 쓴다.

그간 들었던 ‘기계 학습(Machine Learning)’이라는 단어부터 ‘딥러닝’, ‘인공지능’ 이런 표현들이

수식이 없는 상태에서 데이터를 이용해 수식을 추론해가는 과정에서 쓰는 수학적 도구들을 말한다.

위의 도표를 보면, 주어진 환경(Environment)이 있고, 행동을 결정하는 Agent가 주변 상황(State)를 인지(Observe)한 다음,

자신만의 모델(DNN)을 돌려서 ‘A인 경우에 a, B인 경우에는 b’ 같은 의사 결정 구도(Policy)를 만드는 과정을 따라갈 수 있다.

일반적으로는 내가 주변 환경에 영향을 못 미치지만, 영향을 미칠 수 있고 그에 따라 반대급부(Reward)가 달라진다면?

그럼 좀 더 적극적으로 주변 환경을 고치려고 하지 않을까?

근데 내가 한 선택에 따라 주변 환경이 바뀌면 계속 위의 Value function 계산을 해 줘야 하겠네?

‘추상화’가 잘 된 식을 뽑아내야 한다던데?

여기서 바로 ‘딥러닝’, ‘인공지능’ 등으로 알려진 계산법이 가진 한계점을 엿볼 수 있다.

열심히 컴퓨터를 학대해서 계산을 하고, 그 계산으로 ‘수식’의 근사치를 뽑아내더라도,

그 수식이 반복 작업 형태가 아니라 ‘제멋대로’ 돌아다닌다면,

위에서 ‘추상화’에 실패한 수식 계산을 억지로 Bellman equation 형태로 계산하는 것과 다를 바 없다.

결국 머신러닝 업계 용어로 ‘학습에 실패(Fail to learn)’하는 일이 생길 것이다.

여러가지 다른 문제가 있지만, 그간 알파고 등으로 알려진 계산법들이 바둑판 위와 같은 특정 구도에서만 작동할 수 있었던 가장 큰 이유가,

다른 모든 경우를 포함할 수 있도록 만들려면 그 때마다 ‘제멋대로’를 모두 감안할 수 있는 초대형 방정식이 필요했기 때문이다.

위의 그림에서 조그맣게 5x5x4 로 만들어진 DNN 모델이 아니라, 컴퓨터로 계산하는 것이 불가능에 가까운 도전이라고 봐도 무방했다.

속칭 ‘강 인공지능’이 곧 나올 수 있다는 주장을 하던 ‘이름만 전문가’인 분들의 주장이 현실과는 거리가 멀다는 주장을 했던 이유도 바로 이 부분에 있다.

6.강화학습(Reinforcement Learning)의 여러 도전들

강화학습 알고리즘은 사실 1800년대 중반부터 인류가 활용했던 계산법이다.

물리학자인 Hamilton이 1833년에 냈던 논문을 바탕으로 위에서 간략하게 소개한 Hamiltonian 계산법이

동적 최적화 계산을 해야하는 각종 학문의 기본이 됐고,

각 학문별로 다루는 데이터가 달랐기 때문에 조금씩 자신들만의 변형을 활용하기도 했다.

여러가지 예시 중 하나로 ‘알파고-제로’, ‘알파-제로’ 등으로 알려진,

(Monte Carlo) 시뮬레이션으로 만들어 낸 데이터를 활용함으로써 아예 데이터 없이 규칙(Policy)만 알려주면 된다고 했던 모델이 있고,

그 외에도 DQN 등으로 알려진 모델들도 모두 위와 비슷한 방식으로

(어떤 방식으로건 생산해 낸) 데이터를 활용해 Bellman equation을 추정(?)해 내는 계산을 했다.

그러나, Bellman equation을 추정하는 작업은 그렇게 간단하지 않고,

온갖 종류의 데이터를 다루게 될 경우 더 노이즈 제거에 대한 고민이 쌓일 수 밖에 없는 구조적 한계를 갖고 있다.

어찌됐건 반복 형태의 계산식을 만들어 낼 수 없으면 결과 값이 ‘산으로 가는’ 경우를 피할 수 없기 때문이다.

7.인간 피드백형 강화학습(Reinforcement Learning w/ Human Feedback, RLHF)

이번에 ChatGPT에서 내놓은 강화학습의 변형 모델은 ‘인간의 피드백’을 활용하는 형태다.

기존에는 과거의 데이터, 시뮬레이션 데이터를 활용하기도 했고, 데이터 보정을 위한 알고리즘을 쓰기도 했다.

ChatGPT는 채팅이라는 방식으로 인간과 교류하는만큼, 인간의 반응을 이용해서 문제를 보정하는 방식으로 관점을 바꾼 것이다.

출처: https://arxiv.org/abs/1706.03741

기존의 비지도학습(Unsupervised Learning)이 인간의 의사 판단을 활용하는 것과 같은 관점에서,

채팅이라는 플랫폼의 구조적 특징을 적절하게 결합한 모델이라고 할 수 있다.

그럼 인간의 피드백을 어떤 방식으로 수식화해서 계산 작업이 진행되나?

출처: https://arxiv.org/abs/1706.03741

인간의 모든 행동 반응을 다 집어넣는 것이 아니라, 일종의 선호 순서 구조를 만들어낸다.

경제학에서 현시선호(Revealed preference)로 불리는 방법론으로,

A,B가 주어진 상태에서 A를 선택했다는 데이터를 보고, A가 B보다 더 나은 선택이라고 판단하는 것이다.

모델을 만드는 사람이 직관적으로 이해한, 혹은 함수를 만들어서 그 함수에 따라 선호의 순서를 정하는 것이 아니라,

‘데이터’에 나온, 즉 인간이 선택하고 난 사후 결과물을 바탕으로 선호의 순서를 정한다.

보통 선호를 데이터로 처리할 경우 일반적으로 취하는 방식이기도 하다.

출처: https://arxiv.org/abs/1706.03741

그렇게 정해진 선호도 순서를 추정해내는 확률 함수를 만들고, 이 확률 함수는 위의 1번 식으로 표현이 되어 있다.

N개의 옵션이 있을 경우 1번이 옵션이 선택될 확률이 나머지 옵션들이 선택될 확률보다 얼마나 더 높으냐로 결정되는,

전형적인 Softmax 함수 방식의 순서 정하기 계산이다.

글 앞머리에 불확실성을 기대값으로 계산하는 방식이 바로 여기서 도입된다.

단지 통계학의 분포함수 같은 개념 대신, 인간 반응을 바탕으로 한 Softmax가 분포함수 자리를 대체하는 것이다.

즉, 1번과 2번 중 어느 쪽을 정하는 편이 더 손실이 적은지를 계산하는 Loss function 문제를 풀어내는 방식으로

‘인간 피드백형 강화학습(Reinforcement Learning w/ Human Feedback, RLHF)’ 계산을 요약할 수 있다.

실제로 코드를 쳐서 더 모델을 구현한다면 아마 확률을 가중치로 이용하는 부분에 대해서만 1-2줄 정도 코드 라인이 추가될 것이다.

기존 강화학습 모델에서 확률 가중치를 주는 부분만 분포함수 기반에서 데이터를 바탕으로 한 Softmax로 바뀌었으니까.

ChatGPT 시리즈 – ③’인간 피드백형 강화학습(RLwHF)’의 한계

ChatGPT 시리즈 – ③’인간 피드백형 강화학습(RLwHF)’의 한계

Keith Lee 2023-02-082023-10-24

8.RLHF로 할 수 있는 것과 할 수 없는 것 자, 이제 이 시리즈 글의 가장 본질적인 목적으로 돌아와보자. 위의 논리를 이해했다면 굳이 ‘실험’에 의존하지 않고도 어떤 데이터와 어떤 목적일 때 RLHF가 효과적일 수 있을지 가늠이 될테니, 논리부터 한번 정리해보자. 우선, 일반에 ‘강화학습’으로 알려진 계산법은, 고교 시절에 봤던 미분 최적화 + 수열의 대학 방식 계산인데,…

인공지능 마케팅, 거대한 사기의 끝

인공지능 마케팅, 거대한 사기의 끝

Keith Lee 2019-03-292023-10-24

Computer Science 학계에서 (Computer Engineering 말고) 머신러닝이라는 계산 알고리즘에 관심을 가진 적이 대략 3번 정도 된다. 70년대 후반에 대기업 및 학교들이 대형 컴퓨터들을 비치해서 펀치 기계로 이런 저런 명령어를 입력하는 단순 알고리즘을 만들 때가 첫번째고, 90년대 중반에 메모리 가격 폭락으로 하드웨어 가성비가 좋아졌을 때가 두번째, 그리고 2008년 이래 이미지 인식 정확도가 눈에 띄게 좋아지고 난…

“인공지능”이라는 사기는 그만둡시다

“인공지능”이라는 사기는 그만둡시다

Keith Lee 2018-07-272023-10-24

지금 우리가 만나고 있는 “인공지능”은 사실 “지능”이 아니라, 데이터에서 뽑아낸 패턴들로 이뤄낸 고급 자동화라는 사실을 여러번 강조하고 있다. 이전에는 단순한 규칙만을 입력한 자동화였다가, 이제는 데이터에서 더 다양한 규칙들을 뽑아내서 자동화를 좀 더 복잡한 수준으로 할 수 있는 정도에 불과하니 이건 “지능”이 아니라 “규칙”을 “저장”하는 것에 불과하다고 했다. 본 블로그에서 여러번 강조하듯이, 단순히 데이터의 용량이 커져서가…

ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

Keith Lee 2023-02-162023-10-24

지난해 11월 말에 ChatGPT가 출시되고 2개월만에 사용자가 1억명을 넘었다는 보도가 있었다. 이제 만 2개월이 좀 더 지난 시점인데, 수익화를 위해서 개발사인 OpenAI가 서두르는 것을 보면서, 게임 이상으로 현실 서비스를 뜯어 고칠 수 있을까는 의문을 던져봤다. 한 언론사 기자 지원을 했던 학생이 ChatGPT에서 정보를 얻어 기사 샘플을 작성했다며 제출했단다. 솔직히 밝혀줘서 고맙다면서 글을 읽어본 경력직…

인공지능의 실체를 파악한 실리콘 밸리

인공지능의 실체를 파악한 실리콘 밸리

Keith Lee 2020-02-032023-10-24

파비Fun 서비스 출시 이후 업로드 되는 다양한 종류의 유머 짤을 보게 되는데, 그 중 우리 회사 사업 모델과 직접적으로 연결된 짤 하나를 공유해본다 (Source: 파비Fun의 어느 포스트) 사실 똑같은 유머 짤을 9gag.com이라는 영어권 커뮤니티에서 본 적이 있는데, 댓글 중 하나가 굉장히 인상적이었던 기억이 있다. (Source: 9gag.com) 위의 댓글을 번역하면 투자자에게 회사 IR을 할 때는 끝판왕…

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

Keith Lee 2023-02-102023-10-24

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다. 이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼, 세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다. 아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데, 제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계…