Machine Learning/파이썬과 케라스로 배우는 강화학습
-
04장. 강화학습 기초 3: 그리드월드와 큐러닝 // 미완Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 12. 13. 14:10
- 강화학습과 다이내믹 프로그래밍의 차이는 강화학습은 환경의 모델을 몰라도 환경과의 상호작용을 통해 퇴적 정책을 학습한다는 것. - 예측 : 에이전트는 환경과의 상호작용을 통해 주어진 정책에 대한 가치함수를 학습하는 것. 몬테카를로 예측, 시간차 예측 - 제어 : 가치함수를 토대로 정책을 끊임없이 발전시켜 나가서 최적 정책을 학습하려는 것. 시간차 제어 - 살사, 오프폴리시 제어 - 큐러닝 1. 강화학습과 정책 평가 1: 몬테카를로 예측 1.1 사람의 학습 방법과 강화학습의 학습 방법 - 강화학습은 환경의 모델 없이 환경이라는 시스템의 입력과 출력 사이의 관계를 학습. ㄱ. 일단 해보고 ㄴ. 자신을 평가하며 ㄷ. 평가한 대로 자신을 업데이트 ㄹ. 반복 1.2 강화학습의 예측과 제어 - 다이내믹 프로그래밍..
-
03장 강화학습의 기초 2: 그리드월드와 다이내믹 프로그래밍Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 10. 2. 20:17
- 다이내믹 프로그래밍 : 작은 문제가 큰 문제 안에 중첩돼 있는 경우, 작은 문제의 답을 다른 작은 문제에 이용함으로써 효율적으로 계산하는 방법. - 다이내믹 프로그래밍은 강화학습의 근간이 되었고, 다이내믹 프로그래밍의 한계를 벗어나고자 강화학습을 사용. - 강화학습과 다이내믹 프로그래밍 둘다 벨만 방정식을 푸는 방법의 일종. - 가치함수란 현재의 정책을 따라갔을 때 받을 보상에 대한 기댓값. 1. 정책 이터레이션 1-1 정책 평가 $$ v_{k+1} = \sum_{a \in A}\pi(a|s)(r_{(s,a)}+\gamma v_{k}(s')) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad..
-
02장 강화학습의 기초 1: MDP와 벨만 방정식(미완)Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 7. 06:51
1. MDP - 강화학습은 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현. -> 강화학습은 문제를 해결하는 도구. MDP는 문제를 수학적으로 표현하는 방법. - Markov Decision Process : 확률 모델. 시간 t+1은 시간 t에게만 영향을 받고, 시간 t-n 에 대해서는 독립. 미래는 과거와 독립이고 현재한테서 영향을 받는다. 2. MDP 구성 요소 - 상태, 행동, 보상 함수, 상태 변환 확룰, 할인율 - 상태 - S는 에이전트가 관찰 가능한 '상태의 집합'. S가 인지 가능한 상태의 모든 유형 또는 모든 경우의 수. S = {"집에서 게임", "집에서 수면", "집에서 식사", "회사에서 업무", "회사에서 회의"} -..