Machine Learning
-
Visual Studio Code 자동 완성 Enter키로 선택 안 되게 하기Machine Learning/기타 참고 및 저장용 2022. 7. 5. 15:12
1. settings.json 파일 수정 %AppData%\Roaming\Code\User\settings.json 또는 %AppData%\Code\User\settings.json 에 있으며 이걸 열던지 또는 Visual Studio Code에서 Ctrl Shit P 를 눌러서 "settings.json"을 검색하면 표시된다. 이걸 선택하면 된다 json에 "editor.acceptSuggestionOnEnter": "off" 를 추가하면 된다2. Settings 탭에서 수정하기 Visual Studio Code에서 Ctrl ,(쉼표)를 누르면 Settings 탭이 표시되고 여기에 "acceptSuggestionOnEnter"를 검색하면 Accept Suggestion On Enter 항목이 표시되고 ..
-
그냥 DQN 한글 번역 (2)Machine Learning/기타 참고 및 저장용 2021. 8. 10. 17:31
2. Background agent가 actions, observations and rewards의 연속에서 환경 $\epsilon$(이 경우엔 Atari emulator) 와 상호작용하는 tasks를 고려했다. 각 time step에서 agent가 허용되는 행동들 $A=\{1,...K\}$ 중에서 행동 $a_t$을 선택한다. 그 행동은 emulator에 전달되고 emulator 내부 상태와 게임 점수를 바꾼다. 일반적으로 $\epsilon$는 확률적이다. emulator의 내부 상태는 agent에게 관측되지 않는다. 대신 agent는 emulator로부터 이미지 $x_t \in \mathbb{R}^d$를 관측한다. 이것은 현재 화면을 표현하는 raw pixel 값의 vector이다. 추가적으로 agen..
-
그냥 DQN 한글 번역 (1)Machine Learning/기타 참고 및 저장용 2021. 8. 9. 16:13
우리는 강화학습을 사용하여 고차원의 감각 입력으로 정책을 제어하는 딥러닝 모델을 제시한다. 그 모델은 입력을 원본 픽셀로 하고 출력은 미래 보상을 추정하는 가치 함수로 하는 변형된 Q-learing이 학습된 CNN이다. 아키텍처나 학습 알고리즘 조정 없이, 우리의 방법을 Arcade Learning Environment에서 Atari 2600의 7개 게임에 적용했다. 게임들 중 6개에서는 모든 이전의 방식(접근)보다 더 뛰어났고, 그 중 3개의 게임에서는 사람의 숙련도를 능가했다. 1. Introduction vision과 speech와 같은 고차원의 감각 입력으로 agent를 직접적으로 통제하는 학습은 강화학습의 오래된 도전 과제들 중 하나였다. 이 분야에서 운용되는 대부분의 강확학습 결과물들(appl..
-
04장. 강화학습 기초 3: 그리드월드와 큐러닝 // 미완Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 12. 13. 14:10
- 강화학습과 다이내믹 프로그래밍의 차이는 강화학습은 환경의 모델을 몰라도 환경과의 상호작용을 통해 퇴적 정책을 학습한다는 것. - 예측 : 에이전트는 환경과의 상호작용을 통해 주어진 정책에 대한 가치함수를 학습하는 것. 몬테카를로 예측, 시간차 예측 - 제어 : 가치함수를 토대로 정책을 끊임없이 발전시켜 나가서 최적 정책을 학습하려는 것. 시간차 제어 - 살사, 오프폴리시 제어 - 큐러닝 1. 강화학습과 정책 평가 1: 몬테카를로 예측 1.1 사람의 학습 방법과 강화학습의 학습 방법 - 강화학습은 환경의 모델 없이 환경이라는 시스템의 입력과 출력 사이의 관계를 학습. ㄱ. 일단 해보고 ㄴ. 자신을 평가하며 ㄷ. 평가한 대로 자신을 업데이트 ㄹ. 반복 1.2 강화학습의 예측과 제어 - 다이내믹 프로그래밍..
-
03장 강화학습의 기초 2: 그리드월드와 다이내믹 프로그래밍Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 10. 2. 20:17
- 다이내믹 프로그래밍 : 작은 문제가 큰 문제 안에 중첩돼 있는 경우, 작은 문제의 답을 다른 작은 문제에 이용함으로써 효율적으로 계산하는 방법. - 다이내믹 프로그래밍은 강화학습의 근간이 되었고, 다이내믹 프로그래밍의 한계를 벗어나고자 강화학습을 사용. - 강화학습과 다이내믹 프로그래밍 둘다 벨만 방정식을 푸는 방법의 일종. - 가치함수란 현재의 정책을 따라갔을 때 받을 보상에 대한 기댓값. 1. 정책 이터레이션 1-1 정책 평가 $$ v_{k+1} = \sum_{a \in A}\pi(a|s)(r_{(s,a)}+\gamma v_{k}(s')) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad..
-
02장 강화학습의 기초 1: MDP와 벨만 방정식(미완)Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 7. 06:51
1. MDP - 강화학습은 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현. -> 강화학습은 문제를 해결하는 도구. MDP는 문제를 수학적으로 표현하는 방법. - Markov Decision Process : 확률 모델. 시간 t+1은 시간 t에게만 영향을 받고, 시간 t-n 에 대해서는 독립. 미래는 과거와 독립이고 현재한테서 영향을 받는다. 2. MDP 구성 요소 - 상태, 행동, 보상 함수, 상태 변환 확룰, 할인율 - 상태 - S는 에이전트가 관찰 가능한 '상태의 집합'. S가 인지 가능한 상태의 모든 유형 또는 모든 경우의 수. S = {"집에서 게임", "집에서 수면", "집에서 식사", "회사에서 업무", "회사에서 회의"} -..