gridworld
2-value-iteration
reward와 value만 가지고 진행하므로 계산이 훨씬간단해졌다.
전제 :
[2, 2]중심의 value는 항상 0이다
calculate : new value_table = max (next reward + 0.9 * next value)
print policy :
value = next reward + 0.9 * next value
max(value)
action = value == max ? 1 : 0
move : action > 0 이라면 어디나... [2, 2] 중심에 도착할 때까지 무한루프
'python 및 머신러닝 > 파이썬과 케라스로 배우는 강화학습' 카테고리의 다른 글
파이썬과 케라스로 배우는 강화학습 3장 1-policy-iteration (1) | 2017.10.05 |
---|