-
02장 강화학습의 기초 1: MDP와 벨만 방정식(미완)Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 7. 06:51
1. MDP
- 강화학습은 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현. -> 강화학습은 문제를 해결하는 도구. MDP는 문제를 수학적으로 표현하는 방법.
- Markov Decision Process : 확률 모델. 시간 t+1은 시간 t에게만 영향을 받고, 시간 t-n 에 대해서는 독립. 미래는 과거와 독립이고 현재한테서 영향을 받는다.
2. MDP 구성 요소
- 상태, 행동, 보상 함수, 상태 변환 확룰, 할인율
- 상태
- S는 에이전트가 관찰 가능한 '상태의 집합'. S가 인지 가능한 상태의 모든 유형 또는 모든 경우의 수.
S = {"집에서 게임", "집에서 수면", "집에서 식사", "회사에서 업무", "회사에서 회의"}
- 행동
- 에이전트 S_t에서 할 수 있는 행동의 집합.
A = {"집에서 게임":["롤", "삼탈워"], "집에서 수면":["없음"],
"집에서 식사":["숟가락질", "젓가락질"]}
- 보통 에이전트가 할 수 있는 행동은 모든 상태에서 같음.
- 보상함수
- 보상은 에이전트가 학습할 수 있는 유일한 정보. 환경이 에이전트에게 전달.
- S_t = s이고 A_t = a일때, 에이전트가 받을 보상(이후 시간 t+1에서 받을 보상의 기댓값)
r(s, a) = E[ R_(t+1) | S_t =s, A_t =a ]
- 상태 변환 확률
- 에이전트가 상태 s에서 행동 a를 취했을 때 어떠한 상태 s'에 도달할 확률. 환경의 일부.
- 할인율
- 현재에 가까운 보상일수록 더 큰 가치. 같은 보상이면 나중에 받을수록 가치가 줄어듦.
(시간뿐만 아니라 상태에 따라서도 할인율이 달라야하는 건 아닌지?)
γ∈[0, 1] 0과 1사이의 값.
γ^(k-1)R_t+k 할인율을 고려한 미래 보상의 현재 가치. 시간이 3만큼 후의 미래 보상이라면 γ^2가 곱해짐.
- 정책
- 상태에 따라 에이전트가 취할 행동. 각 상태에서 단 하나의 행동만 취할 수 있고,
여러 행동을 확률적으로 취할 수있음.
- 최적 정책은 각 상태에서 단 하나. 에이전트가 학습 중이라면 확률적으로 여러 개의 행동을 선택할 수 있어야함.
π(a | s) = P[ A_t = a | S_t = s ] 에이전트가 상황 s일 때, 행동 a를 할 확률.
3. 가치함수
- 앞으로 받을 보상에 대한 개념.
할인율을 적용한 보상들의 합 = R t + 1 + γ R t + 2 + γ2 R t + 3 + γ3 R t + 4 + ...
- 반환값
실제로 환경을 탐험(답사)하며 받은 보상. (에이전트가 실제로 플레이하며 얻은 데이터)
받은 보상을 정산한 결과.
반환값 G t = R t + 1 + γ R t + 2 + γ2 R t + 3 + γ3 R t + 4 + ...
- 어떠한 상태에 가면 받을 것이라고 예상되는 값.
가치함수 v( s ) = E [ G t | S t = s ]
- 가치함수로 가치함수 정의. 상대적으로 더 빠른 시점의 가치함수값은 더 느린 시점의 가치함수값들을 취합한 것.
v ( s ) = E [ R t + 1 + γ v ( S t + 1 ) | S t = s ]
- 정책을 고려한 가치함수의 표현.
v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) | S t = s ]
4. 큐함수
: 행동 가치 함수(Q Function)
$$ v_{\pi}(s,a) = \sum_{a \in A} \pi(a|s) q_{\pi}(s,a) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad $$
'Machine Learning > 파이썬과 케라스로 배우는 강화학습' 카테고리의 다른 글
04장. 강화학습 기초 3: 그리드월드와 큐러닝 // 미완 (0) 2020.12.13 03장 강화학습의 기초 2: 그리드월드와 다이내믹 프로그래밍 (0) 2020.10.02 01장 강화학습 개요 (0) 2020.08.06