‘파이썬과 케라스로 배우는 강화학습’ 세미나 1

우리는 앞에서 두 번의 온라인 세미나를 통해 ‘딥러닝에 대한 이해와 케라스를 사용한 딥러닝 구현’을 학습했습니다. 그리고 다음 세미나로 개별적인 딥러닝 모델들을 매우 자세한 수준으로 이해하고, 실제적 적용을 다루기로 했습니다.

그런데 이렇게 하려고 하다보니 강화학습 세미나를 언제 할지 기약할 수가 없게 되었습니다. 개별적인 딥러닝 모델들을 실제적 적용까지 다루려면 오랜 시간이 걸릴 것이기 때문입니다.

그래서 약간 우회하지만, 강화학습을 먼저 다루기로 결정했습니다. 강화학습이 딥러닝에 대한 이해를 요구하기도 하고, 마침 ‘파이썬과 케라스로 배우는 강화학습’이라는 좋은 책도 있어 고민을 줄일 수 있었습니다.

이번 세미나를 통해 강화학습에 대한 막연한 두려움이 없어지길 기대하면 첫 번째 세미나를 진행합니다.

 

1장을 읽고 강화학습이 뭔지에 대해 개략적으로 이해합니다.

p4. 강화학습은 행동심리학과 머신러닝에 뿌리를 둔다. 강화학습은 순차적으로 행동을 결정해야 하는 문제를 다룬다.

p10.  에이전트는 자신의 행동과 행동의 결과를 보상을 통해 학습하면서 어떤 행동을 해야 좋은 결과를 얻게 되는지 알게 된다.

강화학습의 목적은 에이전트가 환경을 탐색하면서 얻는 보상들의 합을 최대화하는 “최적의 행동양식, 또는 정책”을 학습하는 것이다.

p14 . 순차적으로 행동을 결정하는 문제를 정의할 때 사용하는 방법이 MDP(Markov Decision Process)이다. MDP는 순차적 행동 결정 문제를 수학적으로 정의해서 에이전트가 순차적 행동 결정 문제에 접근할 수 있게 한다.

순차적 행동 결정 문제를 MDP로 정의한다는 것은 상태와 행동과 보상을 정의하는 것임을 p21의 ‘브레이크아웃의 MDP와 학습 방법’을 보면 알 수 있습니다. 따라서 MDP 구성요소는 상태, 행동, 보상으로 설명해야 하고, 정책은 문제해결로 설명하는 것이 좋을 것 같습니다.

p16. 순차적 행동 결정 문제에서 구해야 할 답은 바로 정책이다. 에이전트가 보상을 얻으려면 행동을 해야 하는데 특정 상태가 아닌 모든 상태에 대해 어떤 행동을 해야하는지 알아야 한다. 이렇게 모든 상태에 대해 에이전트가 어떤 행동을 해야 하는지 정해놓은 것이 정책이다.

순차적 행동 결정 문제를 풀었다고 한다면 제일 좋은 정책을 에이전트가 얻었다는 것이다. 제일 좋은 정책은 최적 정책(optimal policy)이라고 하며 에이전트는 최적 정책에 따라 행동했을 때 보상의 합을 최대로 받을 수 있다.

p25. 최근 인공신경망이 강화학습과 함께 사용되면서 바둑이나 로봇의 학습과 같은 방대한 양의 상태를 가진 환경에 대해서도 학습이 가능해졌다.

p21. 강화학습을 통해 학습되는 것은 인공신경망이다.

‘강화학습의 목적이 최적 정책을 학습하는 것’과 ‘모든 상태에 대해 어떤 행동을 해야 할지를 학습한다는 것’과 ‘학습되는 것이 인공신경망이라는 것’이라는 점에 주의를 기울입니다.

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/
  1. 김현남 Reply

    두 번째 세미나를 준비하면서 보이는 것들
    – 보상을 얻게 해주는 행동의 빈도 증가
    – 행동과 행동의 결과를 보상을 통해 연결(상관관계를 학습)
    – 강화 – 학습의 기본

Leave a Reply

*