ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 그냥 DQN 한글 번역 (1)
    Machine Learning/기타 참고 및 저장용 2021. 8. 9. 16:13

    • 우리는 강화학습을 사용하여 고차원의 감각 입력으로 정책을 제어하는 딥러닝 모델을 제시한다.
    • 그 모델은 입력을 원본 픽셀로 하고 출력은 미래 보상을 추정하는 가치 함수로 하는 변형된 Q-learing이 학습된 CNN이다.
    • 아키텍처나 학습 알고리즘 조정 없이, 우리의 방법을 Arcade Learning Environment에서 Atari 2600의 7개 게임에 적용했다.
    • 게임들 중 6개에서는 모든 이전의 방식(접근)보다 더 뛰어났고, 그 중 3개의 게임에서는 사람의 숙련도를 능가했다.

    1. Introduction

     

    • vision과 speech와 같은 고차원의 감각 입력으로 agent를 직접적으로 통제하는 학습은 강화학습의 오래된 도전 과제들 중 하나였다.
    • 이 분야에서 운용되는 대부분의 강확학습 결과물들(applications)은 policy representations(?)나 선형 가치 함수와 결합된 수작업으로 처리된 특징 데이터에 의존한다. 
    • 분명히, 이 같은 시스템에서의 성능은 특징 대표성의 품질에 아주 의존한다.

     

    • computer vision과 speech recognition에서 돌파구(breakthroughs)을 이끈 최근 딥러닝의 발전은 원본(날 것의) 감각 데이터로부터 높은 품질의(high-level) 특징 데이터를 추출하는 것이 가능하게 만들었다.
    • 이 방식들은 convolutional networks, multilayer perceptrons, restricted Boltzmann machines, recurrent neural networks를 포함한 다양한 neural network achitectures에 유용하며 그리고 지도 학습과 비지도 학습을 개척했다.
    • 비슷한 기술들이 감각 데이터를 사용하는 강화학습에 유용한지 기대하는(ask) 것은 타당해 보인다.

     

    • 그러나 강화학습은 딥러닝 관점에서 여러 문제들을 보여준다.
    • 첫번째로, 지금까지 성공한 대부분 딥러닝 결과물들(applications)은 많은 양의 수작업으로 라벨링된 데이터를 필요로 한다. 반면에, 강화학습 알고리즘은 빈번하게 희미하거나 잡음이 섞이거나 지연된 scalar reward signal로 학습한다(학습 할 수 있어야한다).
    • 지도 학습에서 확립된(found) 입력과 출력의 직접적인 관계와 비교할 때, 행동과 결과로 발생하는 보상 사이의 간격(지연)은 특히 초라해보인다(daunting).
    • 강화학습에서 보통 서로 매우 밀접한 관련이 있는 상태들의 연속을 마주하는 반면, 대부분의 딥러닝 알고리즘은 각 샘플 데이터들이 서로 독립적이라고 가정한다는 점이 또 다른 문제점이다. 
    • 게다가, 강화학습에서는 알고리즘이 새로운 행동을 학습할수록 데이터 분포가 변화한다.
    • 이 점은 (데이터의) 근원(underlying) 분포가 불변하다고 추정하는 딥러닝 방식에 문제가 될 소지가 있다.

     

    • 이 논문은 복잡한 강화학습(RL) 환경에서 raw video data로부터 성공적인 정책 제어를 학습하는 과제들(challenges)을 convolutional neural network이 극복할 수 있다고 서술한다.
    • 이 network는 weights를 업데이트하기 위해 확률적 경사 하강(?)(stochastic gradient descent)과 다양한 Q-learning 알고리즘으로 학습되었다.
    • 상호 밀접한 데이터와 고정적이지 않은 데이터 분포의 문제점들을 완화하기 위해, 이전 전이들(transitions)을 랜덤하게 샘플링하는 경험 리플레이 방법(experience replay machanism)을 사용하고, 그렇게함으로써 과거의 행동들을 통한 학습 분포(training distrbution)를 고르게 한다(smooth).

     

    • The Arcade Learning Environment (ALE)에서 시행되는 다양한 Atari 2600 게임들에 우리의 접근 방식을 적용했다.
    • Atari 2600은 고차원의 시각적 입력을 사용하는 agent와 사람에게 어렵게 설계된 다양하고 흥미로운 set of tasks을 제공하는 challenging한 RL 시험대이다.
    • 우리의 목적은 가능한 많은 게임 플레이를 성공적으로 학습할 수 있는 단일 neural network agent를 만드는 것이다.
    • 그 network는 어떠한 게임 정보나 수작업으로 설계된 시각적 특징 데이터(features) 제공받지 않으며, 게임 실행기(emulator)의 내부 상태 또한 공유 받지 않는다.
    • 이것은 사람이 하는 것처럼 게임 화면(video input),  보상(reward),  종료 신호(ternimal signals), 가능한 행동들(actions set)을 제외하고는 아무것도 제공 받지 않고 학습한다.
    • 게다가 이 network의 architecture와 훈련에 사용되는 모든 hyperparameters는 그 게임들 모두에서(across th games) 불변하게 유지시켰다.
    • 지금까지는 그 network는 우리가 시도한 6개의 게임에서 이전의 모든 RL algorithms보다 뛰어났고. 그 중 3개의 게임에서는 숙련된 사람을 능가했다.

    댓글

Designed by Tistory.