‘파이썬과 케라스로 배우는 강화학습’ 세미나 4

4장을 읽고 강화학습의 기초인 큐러닝에 대해 이해합니다. 저자의 지루할 만큼 꼼꼼한 설명은 포기하지만 않으면 논리적인 비약 없이 대부분의 내용을 이해할 수 있게 합니다. 이전 장들을 꼼꼼히 읽어왔다면 이번 장은 쉽게 넘어갈 수 있을 것으로 보입니다.

몬테카를로 예측

p112. 강화학습은 1) 일단 해보고 2) 자신을 평가하며 3) 평가한 대로 자신을 업데이트하며 4) 이 과정을 반복한다. 강화학습은 계산을 통해서 가치함수를 알아내는 것이 아니라 에이전트가 겪은 경험으로부터 가치함수를 업데이트한다.

p110. 에이전트는 환경과의 상호작용을 통해 주어진 정책에 대한 가치함수를 학습할 수 있는데, 이를 예측이라 한다. 또한 가치함수를 토대로 정책을 끊임없이 발전시켜 나가서 최적 정책을 학습하려는 것이 제어이다.

예측에는 몬테카를로 예측과 시간차 예측이 있으며, 제어에는 시간차 제어인 살사가 있다. 살사의 한계를 극복하기 위한 오프폴리시 제어인 큐러닝이 있다.

p114. 몬테카를로라는 말은 “무작위로 무엇인가를 해본다”는 의미로 생각하면 된다. 근사라는 것은 원래의 값은 모르지만 “샘플”을 통해 “원래의 값에 대해 이럴 것이다”라고 추정하는 것이다.

p120. 몬테카를로 예측에서는 환경의 모델을 몰라도 여러 에피소드를 통해 구한 반환값의 평균을 통해 가치함수를 추정한다.

p123. 가치함수 입장에서 업데이트를 통해 도달하려는 목표는 반환값이다. 가치함수는 이 목표로 감으로써 자신을 업데이트하는데 한 번에 목표점으로 가는 것이 아니라 스텝사이즈를 곱한 만큼만 가는 것이다. 몬테카를로 예측에서 에이전트는 이 업데이트 식을 통해 에피소드 동안 경험했던 모든 상태에 대해 가치함수를 업데이트한다.

p125. 몬테카를로 예측은 가치함수를 업데이트하기 위해 에피소드가 끝날 때까지 기다려야 한다. 에피소드가 끝이 없거나 길이가 긴 경우에는 적합하지 않다.

시간차 예측

p126. 실시간 예측은 가치함수의 업데이트는 실시간으로 이뤄지며, 몬테카를로 예측과는 달리 한 번에 하나의 가치함수만 업데이트한다.

p127. 어떤 상태에서 행동을 하면 보상을 받고 다음 상태를 알게 되고 다음 상태의 가치함수와 알게 된 보상을 더해 그 값을 업데이트의 목표로 삼는다는 것이다. 다음 상태에서 또 다시 행동을 선택하고 이 과정을 반복한다.

p130. 시간차 예측과 탐욕 정책이 합쳐진 것을 시간차 제어라고 한다. 탐욕 정책에서 현재의 큐함수를 보고 판단한다면 환경 모델을 몰라도 된다. 시간차 제어에서 업데이트하는 대상이 가치함수가 아닌 큐함수가 되어야 한다.

p131. 에이전트는 상태 St에서 탐욕정책에 따라 행동 At를 선택하고 그 행동으로 환경에서 한 타임스텝을 진행한다. 그러면 환경은 에이전트는 보상 Rt+1을 주고 다음 상태 St+1를 알려준다. 여기서 한 번 더 에이전트는 탐욕 정책에 따라 행동 At+1을 선택하고 하나의 샘플[St,  At, Rt+1, St+1, At+1]이 생성되면 그 샘플로 큐함수를 업데이트한다. 시간차 제어를 다른 말로 살사(SARSA)라 한다.

p132. 초기의 탐욕 정책은 잘못된 학습으로 가게 할 가능성이 크다. 충분한 경험을 통해 에이전트가 보유한 큐함수들이 최적에 가까워지게 하는 것이 필요하다. 이 문제는 강화학습의 중요한 문제로서 탐험(exploration)의 문제이다. 그 대안이 ε-탐욕정책이다.

큐러닝

p143. 살사는 온폴리시 시간차 제어, 즉 자신이 행동하는 대로 학습하는 시간차 제어이다. 탐험을 위해 선택한 ε-탐욕 정책 때문에 에이전트는 오히려 최적 정책을 학습하지 못하고 잘못된 정책을 학습하게 된다. 이러한 딜레마를 해결하기 위해 사용하는 것이 바로 오프폴리시 시간차 제어이다. 다른 말로 큐러닝이라고 한다.

p146. 큐러닝은 살사에서 딜레마였던 탐험 vs. 최적 정책 학습의 문제를 정책을 분리시키고 행동 선택은 ε-탐욕 정책으로, 업데이트는 벨만 최적 방정식을 이용함으로써 해결했다. 다른 오프폴리시 강화학습과 달리 큐함수가 간단하기 때문에 이후에 많은 강화학습 알고리즘의 토대가 된다.

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*