‘파이썬과 케라스로 배우는 강화학습’ 세미나 1
우리는 앞에서 두 번의 온라인 세미나를 통해 ‘딥러닝에 대한 이해와 케라스를 사용한 딥러닝 구현’을 학습했습니다. 그리고 다음 세미나로 개별적인 딥러닝 모델들을 매우 자세한 수준으로 이해하고, 실제적 적용을 다루기로 했습니다.
그런데 이렇게 하려고 하다보니 강화학습 세미나를 언제 할지 기약할 수가 없게 되었습니다. 개별적인 딥러닝 모델들을 실제적 적용까지 다루려면 오랜 시간이 걸릴 것이기 때문입니다.
그래서 약간 우회하지만, 강화학습을 먼저 다루기로 결정했습니다. 강화학습이 딥러닝에 대한 이해를 요구하기도 하고, 마침 ‘파이썬과 케라스로 배우는 강화학습’이라는 좋은 책도 있어 고민을 줄일 수 있었습니다.
이번 세미나를 통해 강화학습에 대한 막연한 두려움이 없어지길 기대하면 첫 번째 세미나를 진행합니다.
1장을 읽고 강화학습이 뭔지에 대해 개략적으로 이해합니다.
순차적 행동 결정 문제를 MDP로 정의한다는 것은 상태와 행동과 보상을 정의하는 것임을 p21의 ‘브레이크아웃의 MDP와 학습 방법’을 보면 알 수 있습니다. 따라서 MDP 구성요소는 상태, 행동, 보상으로 설명해야 하고, 정책은 문제해결로 설명하는 것이 좋을 것 같습니다.
‘강화학습의 목적이 최적 정책을 학습하는 것’과 ‘모든 상태에 대해 어떤 행동을 해야 할지를 학습한다는 것’과 ‘학습되는 것이 인공신경망이라는 것’이라는 점에 주의를 기울입니다.
두 번째 세미나를 준비하면서 보이는 것들
– 보상을 얻게 해주는 행동의 빈도 증가
– 행동과 행동의 결과를 보상을 통해 연결(상관관계를 학습)
– 강화 – 학습의 기본