2024. 5. 27. 22:52ใ๐งช Data Science/ML, DL
๊ฐํํ์ต์ ๋ํด ๊ณต๋ถํ๊ณ ์์ด, ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์์๊ณผ ์ฝ๋๋ฅผ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.
์ด ํฌ์คํ ์ ์ฒซ ๋ฐ๊ฑธ์์ด๋ฉฐ, REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ๋ค๋ฃจ๊ฒ ๋ค.
ํ์ดํ !
๋ณธ ํฌ์คํ ์ ์ฑ Foundation of Deep Reinforcement Learning / laura.G์์ ์์ ๋ฐ ๋ด์ฉ์ ์ฐธ๊ณ ํ์ฌ ์ฐ์ธ ๊ธ์ ๋๋ค.
1. REINFORCE ๊ฐ๋
1.1. Model-free vs Model-Based
๊ฐํํ์ต์ ํฌ๊ฒ Model-free, Model-Based๋ก ๋๋๋ค. Model-Based ๊ฐํํ์ต์ trajectory๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ค. ๋ค์ํ ๊ฐ์ง์์ action์ ๋ํ ํ๋ฅ ๋์ trajectory๋ฅผ ์์ธกํ ์ ์๋๋ฐ, ์ด ๊ฒฝ์ฐ ๋ฌด์์๋ก sampling ๋ trajectory๋ฅผ ํ์ตํ๋ Model-free๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ๋ชฉํ๋ฌผ์ ์ ๊ทผํ ์ ์๊ณ ์นํจ๊ฐ ๋ถ๋ช ํ๊ฒ ์กด์ฌํ๋ ์ํฉ์์ ํจ์จ์ ์ผ๋ก ์์ฉํ๋ค.
ํ์ง๋ง ๋ง์ ์ค์ ์ํฉ์ stochastic ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ํ๋์ ์์ ๋ฐ model๋ก ๋ํ๋ผ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ํํ๋ค. good model์ ๋ํ ๊ธฐ์ค๋ ๋ช ํํ์ง ์์, Model-free ๋ฐฉ์์ด ๋ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๊ณ ์์ผ๋ฉฐ REINFORCE ๋ํ Model-free ๋ฐฉ์์ผ๋ก ํ์ตํ๋ค.
1.2. Policy-optimization
Policy-optimization์ด REINFORCE์ ํต์ฌ์ด๋ค. Policy๋ฅผ ์ต์ ํํ๋ ๋ฌธ์ ์ด๋ค. ๊ทธ์ค, policy-gradient์ ๋ํด ์ค๋ช ํ๊ฒ ๋ค. ์๋ ๊ทธ๋ฆผ์ ์ดํด๋ณด์. State(t)๊ฐ ์ฃผ์ด์ก์ ๋, Agent๋ Action(t)๋ฅผ ํํ๋ค. ์ด์ ๋ํด Reward(t)๊ฐ ์ฃผ์ด์ง๋ค. ํ Trajectorty๋ ๋ค์ํ ์๊ฐ๋์ timestep์ ๋ด๊ณ ์์ผ๋ฉฐ, ๊ฐ ์๊ฐ๋์ Reward๋ฅผ Discount Sumํ์ฌ ๊ธฐ๋์น๋ฅผ ๋ํ๋ธ ๊ฒ์ด J(t) ๋ชฉ์ ํจ์์ด๋ค. ์ด ๋ชฉ์ ํจ์๋ฅผ maximizeํ๋ ์ ์ฑ ์ ๋ง๋ค์ด ๊ฐ๋ ๊ฒ์ด Policy-optimization์ด๋ผ๊ณ ์ดํดํ๋ฉด ๋๊ฒ ๋ค. ๊ทธ ์ค ๋ชฉ์ ํจ์ ๊ฒฐ๊ณผ๋ฅผ policy์ ์ ์ฉํ์ฌ ์ ๋ฐ์ดํธํด๋๊ฐ๋ ๊ฒ์ policy-gradient ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ํ๋ค.
1.3. Policy-gradient needs three components
1) A parametrized policy
2) An objective to be maximized
3) A method for updating the policy parameters
์์์ ์๊ฐํ polilcy-gradient ์๊ณ ๋ฆฌ์ฆ์ 3๊ฐ์ ๊ตฌ์ฑ์์๋ฅผ ํ์๋ก ํ๋ค. ์ ๋ฐ์ดํธ๋ฅผ ํ policy, policy๋ฅผ ์กฐ์ ํ objective function, ์กฐ์ ํ๋ ๋ฐฉ๋ฒ(policy-gradient) ๋ฑ์ด๋ค. policy๋ states์ ๋ํ์ฌ action probabilities๋ฅผ ๋งคํํ ํจ์์ด๋ค.
์ ๋ฐ์ดํธ๊ฐ ๋ ์๋ก ๋์ reward๋ฅผ ๋์ถํ๋ > trajectory๋ฅผ ๊ตฌ์ฑํ๋ > action์ probabilities๊ฐ ๋๊ฒ ๋์ค๋ policy๊ฐ ๋ ๊ฒ์ด๋ค.
2. REINFORCE ์์ ์์
2.1. Policy
$ \pi_{\theta} = policy $
$\pi$๋ policy ํจ์ ๊ทธ ์์ฒด์ด๋ฉฐ, $\theta$๊ฐ learnable parameters์ด๋ค.
'We say that the policy is parameterized by $\theta$ '
๋น์ฐํ
(( \pi_{\theta_{1}} \neq \pi_{\theta_{2}} ))
์์ ์์ด ์ฑ๋ฆฝํ๋ค. ํ๋ผ๋ฏธํฐ ์์ฒด๊ฐ ๋ฌ๋ผ ์์ ๋ค๋ฅธ policy์ด๊ธฐ ๋๋ฌธ์ด๋ค.
2.2. The Objective Function
$R_{t}(\tau)$ ๋ ํน์ trajectory์์ ๋ฐ๋ reward์ discounted sum์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ timestep์ ๋ํ์ฌ ๊ตฌํ๋ Reward ํฉ์ ๊ธฐ๋๊ฐ์ด ๋ชฉ์ ํจ์๊ฐ ๋๋ค.
2.3. The Policy Gradient
policy์ parameter์ธ $\theta$๋ ๋ชฉ์ ํจ์์ ๋ฏธ๋ถ ๊ฒฐ๊ณผ ์ฆ, ๋ชฉ์ ํจ์์ ์ฆ๊ฐ์๋ถ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ค.
$\alpha$๋ learning rate์ด๋ค.
๋ชฉ์ ํจ์์ ๋ฏธ๋ถ์ ์ฌ์ค ์กฐ๊ธ ๋ ๋ณต์กํ ์ฐ์ฐ์ ์ํด ์ ๋๋์ง๋ง, ๊ตณ์ด ์ค๋ช ํ์ง๋ ์๊ฒ ๋ค. ์ต์ข ํํ๋ง ์ดํดํ๊ณ ๋์ด๊ฐ๊ฒ ๋ค.
2.4. Monte Carlo Sampling
Monte Carlo ์ํ๋ง์ ๋ฌด์ํ ๋ง์ ์ํ์ ๋ฝ์, ๊ฐ์ ํ๊ท ๋ด๋ฉด ์ต์ข ๊ฐ์ ๊ทผ์ฌํ ์ ์๋ค๋ ์ด๋ก ์ด๋ค.
๊ธธ์ด๊ฐ 2์ธ ์ ์ฌ๊ฐํ ์์ ๋ฐ์ง๋ฆ์ด 1์ธ ์์ด ๋ด์ ํด ์๋ค๊ณ ๊ฐ์ ํ์. ์ด๋ค์ ๋์ด ๋น๋ ์๋ ์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
ํ์ง๋ง ๋ง์ฝ ๋ฐ์ง๋ฆ ๊ธธ์ด๋ฅผ ๋ชจ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ๊ฒฝ์ฐ, ์ด๋ป๊ฒ ๋์ด ๋น๋ฅผ ๊ณ์ฐํ ์ ์์๊น. ์ฌ๊ฐํ ์์ ๋ฌด์ํ ๋ง์ด ์ ์ randomly ํ๊ฒ ์ฐ๊ณ , ์์ ๋ค์ด๊ฐ ์๋ ์ ์ ๊ฐ์๋ฅผ ์ด์ ์ ๊ฐ์๋ก ๋๋๋ฉด ๊ทผ์ฌ๋ฅผ ๊ตฌํ ์ ์์ ๊ฒ์ด๋ค.
์ด๊ฒ์ด ๋ฐ๋ก Monte Carlo Sampling ๊ธฐ์ ์ด๋ฉฐ, $\tau$ (trajectory)๋ฅผ sampling ํ ๋ ์ด์ฉ๋๋ค.
3. REINFORCE Algorithms
3.1. Basic
REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ์ ์ฝ๋๋ฅผ ๋ค๋ค.
episode๋ ์ํฉ์ ๋งํ๋ค. episode๊ฐ 100์ผ ๊ฒฝ์ฐ, 100๋ฒ์ ํ์ต ๊ณผ์ ์ ๊ฑฐ์น๋ค๊ณ ๋ณด๋ฉด ๋๋ค. ์ง๋ ํ์ต ๊ธฐ์ค์ผ๋ก epoch๋ผ๊ณ ํ ์ ์๋ค.
(1) ๊ฐ episode ์์์ ๋๋ค ํ๊ฒ $\tau$๋ฅผ ๋ฝ๋๋ค.
(2) ๋ชฉ์ ํจ์์ ๋ฏธ์ค์ ์ด๊ธฐํํ ์ํ์์
(3) time ๋ณ reward์ ๋ชฉ์ ํจ์๋ฅผ ๊ตฌํ๋ค. ๊ทธ ์์์ ๋ชฉ์ ํจ์์ ์ฆ๊ฐ์๋ถ์ ๊ณ์ํด์ ์ ๋ฐ์ดํธ๋๋ค.
(4) ํ๋์ episode๊ฐ ๋๋๋ฉด $\theta$ (parameters of policy)๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
(5) ๋ชจ๋ episode๊ฐ ๋๋ค๋ฉด ํ์ต์ ์ข ๋ฃ๋๋ค.
3.2. Improving
ํ์ง๋ง ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค. Monte Carlo Sampling์ผ๋ก $\tau$๋ฅผ ๋ฝ์ ๊ฒฝ์ฐ, trajectory๋ง๋ค reward๊ฐ ๋งค์ฐ ๋ค๋ฅด๊ฒ ๋์ฌ ๊ฒ์ด๋ค. ๊ทธ์ ๋ฐ๋ผ high variance ๋ฌธ์ ๊ฐ ์๊ธด๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด reward scaling ์ค ํ๋์ธ reward normalization์ ์งํํ๋ค. ๋ํ์ ์ธ ํํ๋ ๋ค์๊ณผ ๊ฐ๋ค.
๋จ์ํ ๊ฐ๋ ์ผ๋ก, reward์ ํน์ ๊ฐ์ ๋นผ์ฃผ๋ ๊ฒ์ด๋ค. ํํ $ E(\sum R_{t}(\tau )) $๋ฅผ ์ด๋ค. reward์ ํ๊ท ์ ์ฌ์ฉํ์ฌ, centering returns for each trajectory around 0 ํ๋ค.
์ด ๊ณผ์ ์ ํตํด, high variance ๋ฌธ์ ๋ฅผ ์ด๋ ์ ๋ ํด์ํ ์ ์๋ค.
'๐งช Data Science > ML, DL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ฐํํ์ต] SARSA์ DQN ๊ฐ๋ ์ ๋ฆฌ (0) | 2024.07.05 |
---|---|
[๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ์ฝ๋ ๊ตฌํ (1) | 2024.06.02 |
[ML] ์ฐจ์ ์ถ์ (1) - ์ ์, PCA, ์์ ์ฝ๋ (1) | 2024.02.26 |
[์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ] ALS ๊ฐ๋ , Basic ํ๊ฒ feat. ์ฝ๋ X (0) | 2022.05.23 |
[CNN basic] MNIST ๋ฐ์ดํฐ์ ํ์ต, ์์ธก (0) | 2022.04.19 |