‘파이썬과 케라스로 배우는 강화학습’ 세미나 3
3장을 읽고 강화학습의 기초인 다이내믹 프로그래밍에 대해 이해합니다. 2장의 내용을 많은 부분 반복하고 있어 좀 지루한 면도 있기는 하지만 그리드월드를 실제적으로 구현해가기 때문에 흥미도 있습니다. 아무튼 포기하지 않고 끝까지 읽어내는 것이 중요합니다.
위의 p94의 정리에서 다이내믹 프로그래밍에 대한 감을 잡아야 합니다. ‘아하!’하고 감이 잡힐 때 까지 곰곰히 생각을 반복해 봅니다. 그런 다음 ‘벨만 기대 방정식의 형태를 보고 이것을 풀려면 다이내믹 프로그래밍을 사용해야겠구나!’까지 나가면 됩니다.
구현 화면에서 평가 버튼과 발전 버튼을 여러 번에 걸쳐 누르는 것과 다이내믹 프로그램밍을 연결해서도 생각할 수 있어야 합니다.
정책 이터레이션의 구현에서와 마찬가지로 계산 버튼을 여러 번에 걸쳐 누르는 것과 다이내믹 프로그램밍을 연결해서도 생각할 수 있어야 합니다.