본문 바로가기
python 및 머신러닝/파이썬과 케라스로 배우는 강화학습

파이썬과 케라스로 배우는 강화학습 3장 2-value-iteration

by java개발자 2017. 10. 5.

gridworld

2-value-iteration




1-grid-world-코드정리.xlsx


reward와 value만 가지고 진행하므로 계산이 훨씬간단해졌다.


전제 : 

[2, 2]중심의 value는 항상 0이다


calculate : new value_table = max (next reward + 0.9 * next value)


print policy : 

value = next reward + 0.9 * next value   

max(value)

action = value == max ? 1 : 0


move : action > 0 이라면 어디나... [2, 2] 중심에 도착할 때까지 무한루프