01장 강화학습 개요

Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 6. 10:44

1. 상태(state)

현재 에이전트의 정보.

2. 행동(action)

어떤 상태에서 에이전트가 취할 수 있는 행동.

3. 보상(action)

상과 벌. 환경의 일부. 보상을 통해 에이전트는 자신이 했던 행동을 평가.

4. 정책(policy)

각 상황별로 에이전트가 어떤 행동을 해야 하는지 정해 놓은 것.

白手의 블로그 白手의 블로그