‘파이썬과 케라스로 배우는 강화학습’ 세미나 5
5장을 읽고 강화학습을 인공신경망과 함께 어떻게 사용하는지 학습합니다.
우리는 이전의 세미나에서 딥러닝과 케라스에 대해서 학습했습니다. p176까지는 빠른 속도로 읽어냅니다.
p155의 마지막 문단에서 에이전트가 선택 가능한 행동이 5개라고 언급하고 있습니다. 이전 까지는 4개의 행동(상, 하, 좌, 우) 였는데 갑자기 5개라고 하면서 계속 5개 였다고 이야기하는 뉘앙스입니다. 앞으로 나올 그리드월드 문제가 장애물들이 이동하는 문제로 변형되면서 제자리에 있는 것도 하나의 액션이 되기 때문에 5개가 되는 것으로 보입니다.
p178 마지막 문단의 상태의 총 수가 15개인 것이 처음에 이해가 안 되었습니다. 소스 코드를 보니 상대 위치가 x와 y 둘 씩으로 되어 있습니다.
위 두 가지 경우를 보면서, 글을 쓸때는 사소한 것에도 신경을 많이 써야겠다는 생각이 듭니다.
그리드월드 구현을 환경 부분 포함해서 꼼꼼하게 이해하고 진행하지 않았더니 코드에 대한 이해가 뒤로 갈수록 점점 더 떨어지는 것 같습니다. 전체 내용을 다 다룬 다음 꼼꼼하게 코드 부분을 이해하는 시간을 갖도록 하겠습니다. 개선할 수 있는 부분은 개선하면서 진행해보도록 하겠습니다.