이번 세미나는 그리드월드를 가치 이터레이션으로 구현하는 것(p96 ~ p98)이 목표입니다.

지난 번 세미나에서 구현한 정책 이터레이션은 벨만 기대 방정식에 기반을 두고 있고, 이번 세미나에서 구현할 가치 이터레이션은 벨만 최적 방정식에 기반을 두고 있습니다. 따라서 우리는 벨만 기대 방정식과 벨만 최적 방정식의 차이를 먼저 분명히 알아야 합니다.

벨만 기대 방정식과 벨만 최적 방정식은 어떤 가정에서 출발했느냐의 차이가 있습니다. 벨만 기대 방정식은 ‘정책을 따라 가치함수를 계속 업데이트하다 보면 참값을 구할 수 있겠지’라는 가정에서 출발하고, 벨만 최적 방정식은 ‘최적의 정책을 따라 가치함수를 계속 업데이트하다 보면 최적 값이 되겠지’라는 가정에서 출발합니다.

우리가 원하는 것은 최적 정책입니다. 벨만 기대 방정식은 최적 정책에 대한 가정이 없기 때문에 최적 정책을 찾기 위한 정책 발전의 과정이 요구됩니다. 벨만 최적 방정식은 최적 정책에 대한 가정을 가지고 출발했기 때문에 정책 발전과 같은 과정이 필요하지 않습니다.

벨만 최적 방정식 구현은 벨만 기대 방정식에서 정책 발전 관련된 부분을 제거하고, 가치함수 테이블 갱신 부분만 수식 3.14로 바꾸어주면 됩니다.