2024. 5. 27. 22:52ใ๐งช Data Science/Basic Knowledge
๊ฐํํ์ต์ ๋ํด ๊ณต๋ถํ๊ณ ์์ด, ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์์๊ณผ ์ฝ๋๋ฅผ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.
์ด ํฌ์คํ ์ ์ฒซ ๋ฐ๊ฑธ์์ด๋ฉฐ, REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ๋ค๋ฃจ๊ฒ ๋ค.
ํ์ดํ !
๋ณธ ํฌ์คํ ์ ์ฑ Foundation of Deep Reinforcement Learning / laura.G์์ ์์ ๋ฐ ๋ด์ฉ์ ์ฐธ๊ณ ํ์ฌ ์ฐ์ธ ๊ธ์ ๋๋ค.

1. REINFORCE ๊ฐ๋
1.1. Model-free vs Model-Based
๊ฐํํ์ต์ ํฌ๊ฒ Model-free, Model-Based๋ก ๋๋๋ค. Model-Based ๊ฐํํ์ต์ trajectory๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ค. ๋ค์ํ ๊ฐ์ง์์ action์ ๋ํ ํ๋ฅ ๋์ trajectory๋ฅผ ์์ธกํ ์ ์๋๋ฐ, ์ด ๊ฒฝ์ฐ ๋ฌด์์๋ก sampling ๋ trajectory๋ฅผ ํ์ตํ๋ Model-free๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ๋ชฉํ๋ฌผ์ ์ ๊ทผํ ์ ์๊ณ ์นํจ๊ฐ ๋ถ๋ช ํ๊ฒ ์กด์ฌํ๋ ์ํฉ์์ ํจ์จ์ ์ผ๋ก ์์ฉํ๋ค.
ํ์ง๋ง ๋ง์ ์ค์ ์ํฉ์ stochastic ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ํ๋์ ์์ ๋ฐ model๋ก ๋ํ๋ผ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ํํ๋ค. good model์ ๋ํ ๊ธฐ์ค๋ ๋ช ํํ์ง ์์, Model-free ๋ฐฉ์์ด ๋ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๊ณ ์์ผ๋ฉฐ REINFORCE ๋ํ Model-free ๋ฐฉ์์ผ๋ก ํ์ตํ๋ค.
1.2. Policy-optimization
Policy-optimization์ด REINFORCE์ ํต์ฌ์ด๋ค. Policy๋ฅผ ์ต์ ํํ๋ ๋ฌธ์ ์ด๋ค. ๊ทธ์ค, policy-gradient์ ๋ํด ์ค๋ช ํ๊ฒ ๋ค. ์๋ ๊ทธ๋ฆผ์ ์ดํด๋ณด์. State(t)๊ฐ ์ฃผ์ด์ก์ ๋, Agent๋ Action(t)๋ฅผ ํํ๋ค. ์ด์ ๋ํด Reward(t)๊ฐ ์ฃผ์ด์ง๋ค. ํ Trajectorty๋ ๋ค์ํ ์๊ฐ๋์ timestep์ ๋ด๊ณ ์์ผ๋ฉฐ, ๊ฐ ์๊ฐ๋์ Reward๋ฅผ Discount Sumํ์ฌ ๊ธฐ๋์น๋ฅผ ๋ํ๋ธ ๊ฒ์ด J(t) ๋ชฉ์ ํจ์์ด๋ค. ์ด ๋ชฉ์ ํจ์๋ฅผ maximizeํ๋ ์ ์ฑ ์ ๋ง๋ค์ด ๊ฐ๋ ๊ฒ์ด Policy-optimization์ด๋ผ๊ณ ์ดํดํ๋ฉด ๋๊ฒ ๋ค. ๊ทธ ์ค ๋ชฉ์ ํจ์ ๊ฒฐ๊ณผ๋ฅผ policy์ ์ ์ฉํ์ฌ ์ ๋ฐ์ดํธํด๋๊ฐ๋ ๊ฒ์ policy-gradient ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ํ๋ค.

1.3. Policy-gradient needs three components
1) A parametrized policy
2) An objective to be maximized
3) A method for updating the policy parameters
์์์ ์๊ฐํ polilcy-gradient ์๊ณ ๋ฆฌ์ฆ์ 3๊ฐ์ ๊ตฌ์ฑ์์๋ฅผ ํ์๋ก ํ๋ค. ์ ๋ฐ์ดํธ๋ฅผ ํ policy, policy๋ฅผ ์กฐ์ ํ objective function, ์กฐ์ ํ๋ ๋ฐฉ๋ฒ(policy-gradient) ๋ฑ์ด๋ค. policy๋ states์ ๋ํ์ฌ action probabilities๋ฅผ ๋งคํํ ํจ์์ด๋ค.
์ ๋ฐ์ดํธ๊ฐ ๋ ์๋ก ๋์ reward๋ฅผ ๋์ถํ๋ > trajectory๋ฅผ ๊ตฌ์ฑํ๋ > action์ probabilities๊ฐ ๋๊ฒ ๋์ค๋ policy๊ฐ ๋ ๊ฒ์ด๋ค.
2. REINFORCE ์์ ์์
2.1. Policy
$ \pi_{\theta} = policy $
$\pi$๋ policy ํจ์ ๊ทธ ์์ฒด์ด๋ฉฐ, $\theta$๊ฐ learnable parameters์ด๋ค.
'We say that the policy is parameterized by $\theta$ '
๋น์ฐํ
(( \pi_{\theta_{1}} \neq \pi_{\theta_{2}} ))
์์ ์์ด ์ฑ๋ฆฝํ๋ค. ํ๋ผ๋ฏธํฐ ์์ฒด๊ฐ ๋ฌ๋ผ ์์ ๋ค๋ฅธ policy์ด๊ธฐ ๋๋ฌธ์ด๋ค.
2.2. The Objective Function

$R_{t}(\tau)$ ๋ ํน์ trajectory์์ ๋ฐ๋ reward์ discounted sum์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ timestep์ ๋ํ์ฌ ๊ตฌํ๋ Reward ํฉ์ ๊ธฐ๋๊ฐ์ด ๋ชฉ์ ํจ์๊ฐ ๋๋ค.
2.3. The Policy Gradient

policy์ parameter์ธ $\theta$๋ ๋ชฉ์ ํจ์์ ๋ฏธ๋ถ ๊ฒฐ๊ณผ ์ฆ, ๋ชฉ์ ํจ์์ ์ฆ๊ฐ์๋ถ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ค.
$\alpha$๋ learning rate์ด๋ค.
๋ชฉ์ ํจ์์ ๋ฏธ๋ถ์ ์ฌ์ค ์กฐ๊ธ ๋ ๋ณต์กํ ์ฐ์ฐ์ ์ํด ์ ๋๋์ง๋ง, ๊ตณ์ด ์ค๋ช ํ์ง๋ ์๊ฒ ๋ค. ์ต์ข ํํ๋ง ์ดํดํ๊ณ ๋์ด๊ฐ๊ฒ ๋ค.
2.4. Monte Carlo Sampling
Monte Carlo ์ํ๋ง์ ๋ฌด์ํ ๋ง์ ์ํ์ ๋ฝ์, ๊ฐ์ ํ๊ท ๋ด๋ฉด ์ต์ข ๊ฐ์ ๊ทผ์ฌํ ์ ์๋ค๋ ์ด๋ก ์ด๋ค.
๊ธธ์ด๊ฐ 2์ธ ์ ์ฌ๊ฐํ ์์ ๋ฐ์ง๋ฆ์ด 1์ธ ์์ด ๋ด์ ํด ์๋ค๊ณ ๊ฐ์ ํ์. ์ด๋ค์ ๋์ด ๋น๋ ์๋ ์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.

ํ์ง๋ง ๋ง์ฝ ๋ฐ์ง๋ฆ ๊ธธ์ด๋ฅผ ๋ชจ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ๊ฒฝ์ฐ, ์ด๋ป๊ฒ ๋์ด ๋น๋ฅผ ๊ณ์ฐํ ์ ์์๊น. ์ฌ๊ฐํ ์์ ๋ฌด์ํ ๋ง์ด ์ ์ randomly ํ๊ฒ ์ฐ๊ณ , ์์ ๋ค์ด๊ฐ ์๋ ์ ์ ๊ฐ์๋ฅผ ์ด์ ์ ๊ฐ์๋ก ๋๋๋ฉด ๊ทผ์ฌ๋ฅผ ๊ตฌํ ์ ์์ ๊ฒ์ด๋ค.

์ด๊ฒ์ด ๋ฐ๋ก Monte Carlo Sampling ๊ธฐ์ ์ด๋ฉฐ, $\tau$ (trajectory)๋ฅผ sampling ํ ๋ ์ด์ฉ๋๋ค.
3. REINFORCE Algorithms
3.1. Basic
REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ์ ์ฝ๋๋ฅผ ๋ค๋ค.

episode๋ ์ํฉ์ ๋งํ๋ค. episode๊ฐ 100์ผ ๊ฒฝ์ฐ, 100๋ฒ์ ํ์ต ๊ณผ์ ์ ๊ฑฐ์น๋ค๊ณ ๋ณด๋ฉด ๋๋ค. ์ง๋ ํ์ต ๊ธฐ์ค์ผ๋ก epoch๋ผ๊ณ ํ ์ ์๋ค.
(1) ๊ฐ episode ์์์ ๋๋ค ํ๊ฒ $\tau$๋ฅผ ๋ฝ๋๋ค.
(2) ๋ชฉ์ ํจ์์ ๋ฏธ์ค์ ์ด๊ธฐํํ ์ํ์์
(3) time ๋ณ reward์ ๋ชฉ์ ํจ์๋ฅผ ๊ตฌํ๋ค. ๊ทธ ์์์ ๋ชฉ์ ํจ์์ ์ฆ๊ฐ์๋ถ์ ๊ณ์ํด์ ์ ๋ฐ์ดํธ๋๋ค.
(4) ํ๋์ episode๊ฐ ๋๋๋ฉด $\theta$ (parameters of policy)๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
(5) ๋ชจ๋ episode๊ฐ ๋๋ค๋ฉด ํ์ต์ ์ข ๋ฃ๋๋ค.
3.2. Improving
ํ์ง๋ง ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค. Monte Carlo Sampling์ผ๋ก $\tau$๋ฅผ ๋ฝ์ ๊ฒฝ์ฐ, trajectory๋ง๋ค reward๊ฐ ๋งค์ฐ ๋ค๋ฅด๊ฒ ๋์ฌ ๊ฒ์ด๋ค. ๊ทธ์ ๋ฐ๋ผ high variance ๋ฌธ์ ๊ฐ ์๊ธด๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด reward scaling ์ค ํ๋์ธ reward normalization์ ์งํํ๋ค. ๋ํ์ ์ธ ํํ๋ ๋ค์๊ณผ ๊ฐ๋ค.

๋จ์ํ ๊ฐ๋ ์ผ๋ก, reward์ ํน์ ๊ฐ์ ๋นผ์ฃผ๋ ๊ฒ์ด๋ค. ํํ $ E(\sum R_{t}(\tau )) $๋ฅผ ์ด๋ค. reward์ ํ๊ท ์ ์ฌ์ฉํ์ฌ, centering returns for each trajectory around 0 ํ๋ค.
์ด ๊ณผ์ ์ ํตํด, high variance ๋ฌธ์ ๋ฅผ ์ด๋ ์ ๋ ํด์ํ ์ ์๋ค.
'๐งช Data Science > Basic Knowledge' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [๊ฐํํ์ต] SARSA์ DQN ๊ฐ๋ ์ ๋ฆฌ (0) | 2024.07.05 |
|---|---|
| [๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ์ฝ๋ ๊ตฌํ (1) | 2024.06.02 |
| [ML] ์ฐจ์ ์ถ์ (1) - ์ ์, PCA, ์์ ์ฝ๋ (1) | 2024.02.26 |
| [์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ] ALS ๊ฐ๋ , Basic ํ๊ฒ feat. ์ฝ๋ X (0) | 2022.05.23 |
| [CNN basic] MNIST ๋ฐ์ดํฐ์ ํ์ต, ์์ธก (0) | 2022.04.19 |