이것은 다음의 직관을 기반으로 한다. 다음 번 time-step의 squence $s'$의 모든 가능한 행동들 $a'$에 대한 최적 가치 $Q^*(s',a')$를 알 수 있다면, 최적의 전략은 $r+ \gamma Q^*(s',a')$의 예측 값을 최대로 하는 행동 $a'$를 선택하는 것이다.
최적 Q값은 현재 상태 s에서 행동 a라는 사건이 발생하고 이후 다음 상태가 될 수 있는 모든 상태들의 최대 Q 값들의 기댓값.
많은 강화학습 알고리즘의 기본 아이디어는 반복적인 업데이트로 벨만 방정식을 사용함으로써 행동 가치함수를 추정하는 것이다.
가치 이터레이션 같은 알고리즘은 최적 행동 가치 함수에 수렴한다. 반복 횟수 $i \rightarrow \infty $됨에 따라 $Q_i \rightarrow Q^*$
실제로, 이 기본 접근 방식은 전체적으로 비현실적이다. 어떠한 일반화도 없이 행동 가치 함수가 개별적으로 추정되기 때문에.(?) //// 일반화가 되지 않아서. 개별적인 계산과 fully observable해야함. => 실생활에 적용 불가. 비현실적...?
대신에 neural network처럼 행동 가치 함수를 추정하는 function approximator를 사용하는 것이 공통이다.(?)
weight $\theta$로 된 neural network function approximator를 Q-network라 하겠다.
Q-network는 각 반복 $i$에서 변화하는 loss function $L_i(\theta_i)$의 sequence를 최소화함으로써 훈련될 수 있다,
반복 $i$가 $y_i = \mathbb{E}_{s' \sim \epsilon} [ r + \gamma max_{a'} Q(s', a'; \theta_{i-1})|s,a]$를 목표로할 때 그리고 $\rho(s,a)$를 sequence s와 우리가 행동 분포라고 부르는 행동 a의 확률 분포라고 할 때.
loss function $L_i(\theta_i)$가 최적화될 때, 이전 반복의 $\theta_{i-1}$의 파라미터들은 고정되게 된다.
목표는 network weights에 의존한다. 이것은 지도 학습에 사용되는 목표와 대비된다. 이것은 학습 시작전에 고정된다. //// ???
gradient를 따라 우리가 도달한 weights에 관하여 loss function를 구분짓..(Differentiating the loss function with respect to the weights we arrive at the following gradient),(?)
위의 변화도(?)(gradient)에서 완전한 예상치를 계산한다기보다, 확률적 경사 하강로 loss function을 최적화하는 컴퓨터적으로 편의(?)(expedient)이기도 하다(Rather than computing the full expectations in the above gradient, it is often computationally expedient to optimise the loss function by stochastic gradient descent).(?)
weights가 모든 time-step 이후 업데이트 된다면, 그리고 emulator $\epsilon$과 행동 분포로부터 하나씩 얻은 샘플들이 예상치로 대체된다면(?)( and the expectations are replaced by single samples from the behaviour distribution ρ and the emulator E respectively), 우리는 친숙한 Q-learning 알고리즘에 도달한다.
이 알고리즘은 model-free이다. 이것은 명확한 $\epsilon$의 추정없이 emulator $\epsilon$으로부터의 샘플들을 사용하여강화학습 task를 직접적으로 해결한다
이것은 또한 off-policy이다. $a=max_a(Q(s,a;\theta)$의 탐욕 전략(greedy strategy)에 대해 학습한다.
상태 공간의 충분한 탐험을 보장하는 행동 분포를 따르는 동안, $a=max_a(Q(s,a;\theta)$의 탐욕 전략(greedy strategy)에 대해 학습한다.
실제로, 행동 분포는 ($1-\epsilon$ 확률로 greedy strategy를 따르는) $\epsilon-greedy\ strategy$에 의해 선택되거나 확률 $\epsilon$로 랜덤한 행동을 선택한다.