DQN
-
그냥 DQN 한글 번역 (1)Machine Learning/기타 참고 및 저장용 2021. 8. 9. 16:13
우리는 강화학습을 사용하여 고차원의 감각 입력으로 정책을 제어하는 딥러닝 모델을 제시한다. 그 모델은 입력을 원본 픽셀로 하고 출력은 미래 보상을 추정하는 가치 함수로 하는 변형된 Q-learing이 학습된 CNN이다. 아키텍처나 학습 알고리즘 조정 없이, 우리의 방법을 Arcade Learning Environment에서 Atari 2600의 7개 게임에 적용했다. 게임들 중 6개에서는 모든 이전의 방식(접근)보다 더 뛰어났고, 그 중 3개의 게임에서는 사람의 숙련도를 능가했다. 1. Introduction vision과 speech와 같은 고차원의 감각 입력으로 agent를 직접적으로 통제하는 학습은 강화학습의 오래된 도전 과제들 중 하나였다. 이 분야에서 운용되는 대부분의 강확학습 결과물들(appl..