ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 02장 강화학습의 기초 1: MDP와 벨만 방정식(미완)
    Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 7. 06:51

    1. MDP

        - 강화학습은 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현. -> 강화학습은 문제를 해결하는 도구. MDP는 문제를 수학적으로 표현하는 방법.

        - Markov Decision Process : 확률 모델. 시간 t+1은 시간 t에게만 영향을 받고, 시간 t-n 에 대해서는 독립. 미래는 과거와 독립이고 현재한테서 영향을 받는다.

     

    2. MDP 구성 요소

        - 상태, 행동, 보상 함수, 상태 변환 확룰, 할인율

     

        - 상태

            - S는 에이전트가 관찰 가능한 '상태의 집합'. S가 인지 가능한 상태의 모든 유형 또는 모든 경우의 수.

                S = {"집에서 게임", "집에서 수면", "집에서 식사", "회사에서 업무", "회사에서 회의"}

     

        - 행동

            - 에이전트 S_t에서 할 수 있는 행동의 집합.

                A = {"집에서 게임":["롤", "삼탈워"], "집에서 수면":["없음"],

                    "집에서 식사":["숟가락질", "젓가락질"]

     

            - 보통 에이전트가 할 수 있는 행동은 모든 상태에서 같음.

     

        - 보상함수

            - 보상은 에이전트가 학습할 수 있는 유일한 정보. 환경이 에이전트에게 전달.

     

            - S_t = s이고 A_t = a일때, 에이전트가 받을 보상(이후 시간 t+1에서 받을 보상의 기댓값)

                r(s, a) = E[ R_(t+1) | S_t =s, A_t =a ]

     

        - 상태 변환 확률

            - 에이전트가 상태 s에서 행동 a를 취했을 때 어떠한 상태 s'에 도달할 확률. 환경의 일부.

     

        - 할인율

            - 현재에 가까운 보상일수록 더 큰 가치. 같은 보상이면 나중에 받을수록 가치가 줄어듦.

                (시간뿐만 아니라 상태에 따라서도 할인율이 달라야하는 건 아닌지?)

                γ∈[0, 1]    0과 1사이의 값.

                γ^(k-1)R_t+k    할인율을 고려한 미래 보상의 현재 가치. 시간이 3만큼 후의 미래 보상이라면 γ^2가 곱해짐.

     

       - 정책

            - 상태에 따라 에이전트가 취할 행동. 각 상태에서 단 하나의 행동만 취할 수 있고,

                여러 행동을 확률적으로 취할 수있음.

     

            - 최적 정책은 각 상태에서 단 하나. 에이전트가 학습 중이라면 확률적으로 여러 개의 행동을 선택할 수 있어야함.

                π(a | s) = P[ A_t = a | S_t = s ]    에이전트가 상황 s일 때, 행동 a를 할 확률.

     

    3. 가치함수

        - 앞으로 받을 보상에 대한 개념.

            할인율을 적용한 보상들의 합 = γ γγ... 

     

        - 반환값

            실제로 환경을 탐험(답사)하며 받은 보상. (에이전트가 실제로 플레이하며 얻은 데이터)

            받은 보상을 정산한 결과.

           G t = R t + 1 + γ R t + 2 + γ2 R t + 3 + γ3 R t + 4 + ...

     

        - 어떠한 상태에 가면 받을 것이라고 예상되는 값.

            수 v( s ) = E [ G t | S t = s ]

     

        - 가치함수로 가치함수 정의. 상대적으로 더 빠른 시점의 가치함수값은 더 느린 시점의 가치함수값들을 취합한 것.

            v ( s ) = E [ R t + 1 + γ v ( S t + 1 ) | S t = s ]

     

        - 정책을 고려한 가치함수의 표현.

            v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) | S t = s ]

     

    4. 큐함수

    : 행동 가치 함수(Q Function)

    $$ v_{\pi}(s,a) = \sum_{a \in A} \pi(a|s) q_{\pi}(s,a) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad $$

     

     

    댓글

Designed by Tistory.