우리는 강화학습을 사용하여 고차원의 감각 입력으로 정책을 제어하는 딥러닝 모델을 제시한다.
그 모델은 입력을 원본 픽셀로 하고 출력은 미래 보상을 추정하는 가치 함수로 하는 변형된 Q-learing이 학습된 CNN이다.
아키텍처나 학습 알고리즘 조정 없이, 우리의 방법을 Arcade Learning Environment에서 Atari 2600의 7개 게임에 적용했다.
게임들 중 6개에서는 모든 이전의 방식(접근)보다 더 뛰어났고, 그 중 3개의 게임에서는 사람의 숙련도를 능가했다.
1. Introduction
vision과 speech와 같은 고차원의 감각 입력으로 agent를 직접적으로 통제하는 학습은 강화학습의 오래된 도전 과제들 중 하나였다.
이 분야에서 운용되는 대부분의 강확학습 결과물들(applications)은 policy representations(?)나 선형 가치 함수와 결합된 수작업으로 처리된 특징 데이터에 의존한다.
분명히, 이 같은 시스템에서의 성능은 특징 대표성의 품질에 아주 의존한다.
computer vision과 speech recognition에서 돌파구(breakthroughs)을 이끈 최근 딥러닝의 발전은 원본(날 것의) 감각 데이터로부터 높은 품질의(high-level) 특징 데이터를 추출하는 것이 가능하게 만들었다.
이 방식들은 convolutional networks, multilayer perceptrons, restricted Boltzmann machines, recurrent neural networks를 포함한 다양한 neural network achitectures에 유용하며 그리고 지도 학습과 비지도 학습을 개척했다.
비슷한 기술들이 감각 데이터를 사용하는 강화학습에 유용한지 기대하는(ask) 것은 타당해 보인다.
그러나 강화학습은 딥러닝 관점에서 여러 문제들을 보여준다.
첫번째로, 지금까지 성공한 대부분 딥러닝 결과물들(applications)은 많은 양의 수작업으로 라벨링된 데이터를 필요로 한다. 반면에, 강화학습 알고리즘은 빈번하게 희미하거나 잡음이 섞이거나 지연된 scalar reward signal로 학습한다(학습 할 수 있어야한다).
지도 학습에서 확립된(found) 입력과 출력의 직접적인 관계와 비교할 때, 행동과 결과로 발생하는 보상 사이의 간격(지연)은 특히 초라해보인다(daunting).
강화학습에서 보통 서로 매우 밀접한 관련이 있는 상태들의 연속을 마주하는 반면, 대부분의 딥러닝 알고리즘은 각 샘플 데이터들이 서로 독립적이라고 가정한다는 점이 또 다른 문제점이다.
게다가, 강화학습에서는 알고리즘이 새로운 행동을 학습할수록 데이터 분포가 변화한다.
이 점은 (데이터의) 근원(underlying) 분포가 불변하다고 추정하는 딥러닝 방식에 문제가 될 소지가 있다.
이 논문은 복잡한 강화학습(RL) 환경에서 raw video data로부터 성공적인 정책 제어를 학습하는 과제들(challenges)을 convolutional neural network이 극복할 수 있다고 서술한다.
이 network는 weights를 업데이트하기 위해 확률적 경사 하강(?)(stochastic gradient descent)과 다양한 Q-learning 알고리즘으로 학습되었다.
상호 밀접한 데이터와 고정적이지 않은 데이터 분포의 문제점들을 완화하기 위해, 이전 전이들(transitions)을 랜덤하게 샘플링하는 경험 리플레이 방법(experience replay machanism)을 사용하고, 그렇게함으로써 과거의 행동들을 통한 학습 분포(training distrbution)를 고르게 한다(smooth).
The Arcade Learning Environment (ALE)에서 시행되는 다양한 Atari 2600 게임들에 우리의 접근 방식을 적용했다.
Atari 2600은 고차원의 시각적 입력을 사용하는 agent와 사람에게 어렵게 설계된 다양하고 흥미로운 set of tasks을 제공하는 challenging한 RL 시험대이다.
우리의 목적은 가능한 많은 게임 플레이를 성공적으로 학습할 수 있는 단일 neural network agent를 만드는 것이다.
그 network는 어떠한 게임 정보나 수작업으로 설계된 시각적 특징 데이터(features) 제공받지 않으며, 게임 실행기(emulator)의 내부 상태 또한 공유 받지 않는다.
이것은 사람이 하는 것처럼 게임 화면(video input), 보상(reward), 종료 신호(ternimal signals), 가능한 행동들(actions set)을 제외하고는 아무것도 제공 받지 않고 학습한다.
게다가 이 network의 architecture와 훈련에 사용되는 모든 hyperparameters는 그 게임들 모두에서(across th games) 불변하게 유지시켰다.
지금까지는 그 network는 우리가 시도한 6개의 게임에서 이전의 모든 RL algorithms보다 뛰어났고. 그 중 3개의 게임에서는 숙련된 사람을 능가했다.