파이썬과 케라스로 배우는 강화학습 3장 2-value-iteration

java개발자 2017. 10. 5. 10:14

gridworld

2-value-iteration

reward와 value만 가지고 진행하므로 계산이 훨씬간단해졌다.

전제 :

[2, 2]중심의 value는 항상 0이다

calculate : new value_table = max (next reward + 0.9 * next value)

print policy :

value = next reward + 0.9 * next value

max(value)

action = value == max ? 1 : 0

move : action > 0 이라면 어디나... [2, 2] 중심에 도착할 때까지 무한루프