‘파이썬과 케라스로 배우는 강화학습’ 세미나 2
2장을 읽고 강화학습의 기초인 MDP와 벨만 방정식을 이해합니다.
제목처럼 강화학습의 기초를 아는 것이 목적입니다. 너무 깊이 들어갈 필요 없습니다. 저자의 설명에 따라 조금씩 꾸준하게 따라가면 됩니다. 포기하지 않는 것이 중요한 장입니다.
상태는 행동의 가능성을 제약할 수 있습니다. 어떤 상태에서 어떤 행동은 할 수 있지만 어떤 행동은 할 수 없을 수 있습니다. 그리드월드에서 (1, 1)에 에이전트가 있을 때는 ‘위’와 ‘왼쪽’으로 이동은 할 수 없습니다.
감가율은 최적의 정책을 찾을 수 있도록 합니다.
에이전트가 다수의 정책을 탐색할 수 있도록 하려면, 행동의 결정과 상태 변환이 확률적으로 일어나야 합니다.
방정식이므로 우변과 좌변이 같아야 합니다. 참 값을 구한다는 것은 방정식을 푼다는 것입니다. 즉 좌변과 우변을 같게하는 가치함수들의 값을 구하는 것입니다.