홈
태그
방명록

분류 전체보기 (29)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

白手의 블로그 白手의 블로그

컨텐츠 검색

Machine Learning

Visual Studio Code 자동 완성 Enter키로 선택 안 되게 하기
Machine Learning/기타 참고 및 저장용 2022. 7. 5. 15:12

1. settings.json 파일 수정 %AppData%\Roaming\Code\User\settings.json 또는 %AppData%\Code\User\settings.json 에 있으며 이걸 열던지 또는 Visual Studio Code에서 Ctrl Shit P 를 눌러서 "settings.json"을 검색하면 표시된다. 이걸 선택하면 된다 json에 "editor.acceptSuggestionOnEnter": "off" 를 추가하면 된다2. Settings 탭에서 수정하기 Visual Studio Code에서 Ctrl ,(쉼표)를 누르면 Settings 탭이 표시되고 여기에 "acceptSuggestionOnEnter"를 검색하면 Accept Suggestion On Enter 항목이 표시되고 ..

그냥 DQN 한글 번역 (2)
Machine Learning/기타 참고 및 저장용 2021. 8. 10. 17:31

2. Background agent가 actions, observations and rewards의 연속에서 환경 $\epsilon$(이 경우엔 Atari emulator) 와 상호작용하는 tasks를 고려했다. 각 time step에서 agent가 허용되는 행동들 $A=\{1,...K\}$ 중에서 행동 $a_t$을 선택한다. 그 행동은 emulator에 전달되고 emulator 내부 상태와 게임 점수를 바꾼다. 일반적으로 $\epsilon$는 확률적이다. emulator의 내부 상태는 agent에게 관측되지 않는다. 대신 agent는 emulator로부터 이미지 $x_t \in \mathbb{R}^d$를 관측한다. 이것은 현재 화면을 표현하는 raw pixel 값의 vector이다. 추가적으로 agen..

그냥 DQN 한글 번역 (1)
Machine Learning/기타 참고 및 저장용 2021. 8. 9. 16:13

우리는 강화학습을 사용하여 고차원의 감각 입력으로 정책을 제어하는 딥러닝 모델을 제시한다. 그 모델은 입력을 원본 픽셀로 하고 출력은 미래 보상을 추정하는 가치 함수로 하는 변형된 Q-learing이 학습된 CNN이다. 아키텍처나 학습 알고리즘 조정 없이, 우리의 방법을 Arcade Learning Environment에서 Atari 2600의 7개 게임에 적용했다. 게임들 중 6개에서는 모든 이전의 방식(접근)보다 더 뛰어났고, 그 중 3개의 게임에서는 사람의 숙련도를 능가했다. 1. Introduction vision과 speech와 같은 고차원의 감각 입력으로 agent를 직접적으로 통제하는 학습은 강화학습의 오래된 도전 과제들 중 하나였다. 이 분야에서 운용되는 대부분의 강확학습 결과물들(appl..

04장. 강화학습 기초 3: 그리드월드와 큐러닝 // 미완
Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 12. 13. 14:10

- 강화학습과 다이내믹 프로그래밍의 차이는 강화학습은 환경의 모델을 몰라도 환경과의 상호작용을 통해 퇴적 정책을 학습한다는 것. - 예측 : 에이전트는 환경과의 상호작용을 통해 주어진 정책에 대한 가치함수를 학습하는 것. 몬테카를로 예측, 시간차 예측 - 제어 : 가치함수를 토대로 정책을 끊임없이 발전시켜 나가서 최적 정책을 학습하려는 것. 시간차 제어 - 살사, 오프폴리시 제어 - 큐러닝 1. 강화학습과 정책 평가 1: 몬테카를로 예측 1.1 사람의 학습 방법과 강화학습의 학습 방법 - 강화학습은 환경의 모델 없이 환경이라는 시스템의 입력과 출력 사이의 관계를 학습. ㄱ. 일단 해보고 ㄴ. 자신을 평가하며 ㄷ. 평가한 대로 자신을 업데이트 ㄹ. 반복 1.2 강화학습의 예측과 제어 - 다이내믹 프로그래밍..

03장 강화학습의 기초 2: 그리드월드와 다이내믹 프로그래밍
Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 10. 2. 20:17

- 다이내믹 프로그래밍 : 작은 문제가 큰 문제 안에 중첩돼 있는 경우, 작은 문제의 답을 다른 작은 문제에 이용함으로써 효율적으로 계산하는 방법. - 다이내믹 프로그래밍은 강화학습의 근간이 되었고, 다이내믹 프로그래밍의 한계를 벗어나고자 강화학습을 사용. - 강화학습과 다이내믹 프로그래밍 둘다 벨만 방정식을 푸는 방법의 일종. - 가치함수란 현재의 정책을 따라갔을 때 받을 보상에 대한 기댓값. 1. 정책 이터레이션 1-1 정책 평가 $$ v_{k+1} = \sum_{a \in A}\pi(a|s)(r_{(s,a)}+\gamma v_{k}(s')) \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad..

02장 강화학습의 기초 1: MDP와 벨만 방정식(미완)
Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 7. 06:51

1. MDP - 강화학습은 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현. -> 강화학습은 문제를 해결하는 도구. MDP는 문제를 수학적으로 표현하는 방법. - Markov Decision Process : 확률 모델. 시간 t+1은 시간 t에게만 영향을 받고, 시간 t-n 에 대해서는 독립. 미래는 과거와 독립이고 현재한테서 영향을 받는다. 2. MDP 구성 요소 - 상태, 행동, 보상 함수, 상태 변환 확룰, 할인율 - 상태 - S는 에이전트가 관찰 가능한 '상태의 집합'. S가 인지 가능한 상태의 모든 유형 또는 모든 경우의 수. S = {"집에서 게임", "집에서 수면", "집에서 식사", "회사에서 업무", "회사에서 회의"} -..

01장 강화학습 개요
Machine Learning/파이썬과 케라스로 배우는 강화학습 2020. 8. 6. 10:44

1. 상태(state) 현재 에이전트의 정보. 2. 행동(action) 어떤 상태에서 에이전트가 취할 수 있는 행동. 3. 보상(action) 상과 벌. 환경의 일부. 보상을 통해 에이전트는 자신이 했던 행동을 평가. 4. 정책(policy) 각 상황별로 에이전트가 어떤 행동을 해야 하는지 정해 놓은 것.

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바