02장 강화학습의 기초 1: MDP와 벨만 방정식(미완)

Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 7. 06:51

1. MDP

- 강화학습은 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현. -> 강화학습은 문제를 해결하는 도구. MDP는 문제를 수학적으로 표현하는 방법.

- Markov Decision Process : 확률 모델. 시간 t+1은 시간 t에게만 영향을 받고, 시간 t-n 에 대해서는 독립. 미래는 과거와 독립이고 현재한테서 영향을 받는다.

2. MDP 구성 요소

- 상태, 행동, 보상 함수, 상태 변환 확룰, 할인율

- 상태

- S는 에이전트가 관찰 가능한 '상태의 집합'. S가 인지 가능한 상태의 모든 유형 또는 모든 경우의 수.

S = {"집에서 게임", "집에서 수면", "집에서 식사", "회사에서 업무", "회사에서 회의"}

- 행동

- 에이전트 S_t에서 할 수 있는 행동의 집합.

A = {"집에서 게임":["롤", "삼탈워"], "집에서 수면":["없음"],

"집에서 식사":["숟가락질", "젓가락질"]}

- 보통 에이전트가 할 수 있는 행동은 모든 상태에서 같음.

- 보상함수

- 보상은 에이전트가 학습할 수 있는 유일한 정보. 환경이 에이전트에게 전달.

- S_t = s이고 A_t = a일때, 에이전트가 받을 보상(이후 시간 t+1에서 받을 보상의 기댓값)

r(s, a) = E[ R_(t+1) | S_t =s, A_t =a ]

- 상태 변환 확률

- 에이전트가 상태 s에서 행동 a를 취했을 때 어떠한 상태 s'에 도달할 확률. 환경의 일부.

- 할인율

- 현재에 가까운 보상일수록 더 큰 가치. 같은 보상이면 나중에 받을수록 가치가 줄어듦.

(시간뿐만 아니라 상태에 따라서도 할인율이 달라야하는 건 아닌지?)

γ∈[0, 1] 0과 1사이의 값.

γ^(k-1)R_t+k 할인율을 고려한 미래 보상의 현재 가치. 시간이 3만큼 후의 미래 보상이라면 γ^2가 곱해짐.

- 정책

- 상태에 따라 에이전트가 취할 행동. 각 상태에서 단 하나의 행동만 취할 수 있고,

여러 행동을 확률적으로 취할 수있음.

- 최적 정책은 각 상태에서 단 하나. 에이전트가 학습 중이라면 확률적으로 여러 개의 행동을 선택할 수 있어야함.

π(a | s) = P[ A_t = a | S_t = s ] 에이전트가 상황 s일 때, 행동 a를 할 확률.

3. 가치함수

- 앞으로 받을 보상에 대한 개념.

할인율을 적용한 보상들의 합 = R t + 1 + γ R t + 2 + γ2 R t + 3 + γ3 R t + 4 + ...

- 반환값

실제로 환경을 탐험(답사)하며 받은 보상. (에이전트가 실제로 플레이하며 얻은 데이터)

받은 보상을 정산한 결과.

반환값 G t = R t + 1 + γ R t + 2 + γ2 R t + 3 + γ3 R t + 4 + ...

- 어떠한 상태에 가면 받을 것이라고 예상되는 값.

가치함수 v( s ) = E [ G t | S t = s ]

- 가치함수로 가치함수 정의. 상대적으로 더 빠른 시점의 가치함수값은 더 느린 시점의 가치함수값들을 취합한 것.

v ( s ) = E [ R t + 1 + γ v ( S t + 1 ) | S t = s ]

- 정책을 고려한 가치함수의 표현.

v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) | S t = s ]

4. 큐함수

: 행동 가치 함수(Q Function)

$$ v_{\pi}(s,a) = \sum_{a \in A} \pi(a|s) q_{\pi}(s,a) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad $$

'Machine Learning > 파이썬과 케라스로 배우는 강화학습' 카테고리의 다른 글

04장. 강화학습 기초 3: 그리드월드와 큐러닝 // 미완 (0)	2020.12.13
03장 강화학습의 기초 2: 그리드월드와 다이내믹 프로그래밍 (0)	2020.10.02
01장 강화학습 개요 (0)	2020.08.06

ABOUT ME

白手의 블로그 白手의 블로그

'Machine Learning > 파이썬과 케라스로 배우는 강화학습' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Machine Learning > 파이썬과 케라스로 배우는 강화학습' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바