벨만 방정식

DM wiki

Kim135797531 (토론 | 기여)님의 2019년 10월 23일 (수) 07:40 판 (새 문서: ===벨만 방정식=== * 이제 이것도 좀 외울때 되지 않았냐 ====배경==== * 시간 t에서의 상태 s, 그 때의 행동 a를 취했을 때 '''가치'''를 알고 싶...)

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

둘러보기로 이동 검색으로 이동

벨만 방정식

이제 이것도 좀 외울때 되지 않았냐

배경

시간 t에서의 상태 s, 그 때의 행동 a를 취했을 때 가치를 알고 싶다.
그럼 시간 t 이후의 모든 상황에 대한 보상을 다 알아야 하는데 어렵다.
Q(s, a) = E[R|s, a]

벨만 방정식

재귀 형태로 변형하는게 아이디어
(시간 t에서의 가치)는 (딱 t에서의 보상)+(t+1부터 그 이후의 가치로 변형)
Q(s, a) = E[r(s, a) + E[Q(s', a')]]
결정적 정책이라고 가정하면 -> 즉 off-policy로 바꿀 수 있다.
Q(s, a) = E[r(s, a) + Q(s', a')]

원본 주소 "https://wiki.dong-min.kim/w/index.php?title=벨만_방정식&oldid=17"