python 및 머신러닝/파이썬과 케라스로 배우는 강화학습
파이썬과 케라스로 배우는 강화학습 3장 2-value-iteration
java개발자
2017. 10. 5. 10:14
gridworld
2-value-iteration
reward와 value만 가지고 진행하므로 계산이 훨씬간단해졌다.
전제 :
[2, 2]중심의 value는 항상 0이다
calculate : new value_table = max (next reward + 0.9 * next value)
print policy :
value = next reward + 0.9 * next value
max(value)
action = value == max ? 1 : 0
move : action > 0 이라면 어디나... [2, 2] 중심에 도착할 때까지 무한루프