2025. 4. 18. 14:30ใ๐งช Data Science/Paper review
์์ฆ UNIST ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ์ค์์ ์ธํด์ ํ๊ณ ์๋ค.
๋ชฉ์์ผ๋ง๋ค ์ธ๋ฏธ๋ ๋ฐํ๋ฅผ ํ๋๋ฐ, SAC ๋ ผ๋ฌธ์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ๋ค.
๋ฆฌ๋ทฐ ๋ด์ฉ์ ๋ธ๋ก๊ทธ์ ๊ฐ๋ตํ๊ฒ ์ ๋ฆฌํ๋ค.
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
https://arxiv.org/abs/1801.01290
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergenc
arxiv.org
[1] SAC ๋ ผ๋ฌธ์ ํต์ฌ
1-1. Off Policy์ Entropy Maximization framework๋ฅผ ์ ์ฉํด์, ์ํ ํจ์จ์ฑ๊ณผ Robustness๋ฅผ ๋์์ ๊ฐ์ ธ์ค๊ณ ์ ํจ.
1-2. Soft Policy Iteration ๋ฐฉ์์ ๊ฐ์ ํ ๋ชจ๋ธ๋ก, tabular ๋ฐฉ์์ Q๋ฅผ Function Approximation์ผ๋ก ๋์ฒดํ์ฌ continuos ํ๊ฒฝ์์๋ SAC๊ฐ ํ์ฉ๋ ์ ์๋๋ก ํจ.
1-3. Policy๋ฅผ Q๋ก๋ถํฐ Boltzmann ๋ฐ KL-Divergence๋ฅผ ํตํด ์ ๋ํ๋ ๊ฒ์ด ์๋๋ผ, ํ๋ผ๋ฏธํฐํํ์ฌ ์ง์ explicit ํ๊ฒ ์
๋ฐ์ดํธํจ.
1-4. ๊ฒฐ๊ตญ Critic(Q-network), Actor(Policy-network) ํํ๋ฅผ ๋ ๊ฒ ๋จ.
[2] SAC ๋ ผ๋ฌธ์ ์์ฌ์ด ์
2-1. Deadly Triad(off policy, function approximation, bootstrapping ๋์ ์ ์ฉ ์ ์๋ ด ์ฆ๋ช X)๋ฅผ ์ง์ ์ ์ผ๋ก ํด๊ฒฐํ์ง ๋ชปํ๊ณ , Soft Policy Iteration(off, tabular, bootstrapping)์์๋ง ์๋ ด์ ์ฆ๋ช ํจ. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์ด ๋ด์ธ์ ๋ contribution์ธ Convergence Proof๊ฐ ์ง์ ํ ์๋ฏธ์์ ์ ์๋์๋ค๊ณ ๋ณผ ์ ์์(๋ฐ์ฌ๋๋ค์ ์ํ๋ฉด, ํ์ ๋ ผ๋ฌธ์์ ์ ์๋์ด ์๋ค๊ณ ํ์ฌ)
2-2. Hyperparameter์ ๋ํด ๋ฏผ๊ฐํ์ง ์๋ค๋ ๊ฒ์ SAC์ contribution์ผ๋ก ์ผ์์. ์ด๊ฒ์ ์ฆ๋ช ํ๊ธฐ ์ํด์ ๋ฏผ๊ฐ๋ ์คํ์ด ์ด๋ค์ ธ์ผ ํ๋๋ฐ, ์ด์ ๋ํ ์ง์ ์ ์ธ ์คํ์ ์๋ ๊ฒ์ผ๋ก ํ์ธ๋จ. ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋, average score๊ฐ ์๋์ ์ผ๋ก ์์ ์ ์์นํ๋ค๋ ์ ์ ๋ค์ด ๊ฐ์ ์ฆ๋ช ํ ๊ฒ์ผ๋ก ๋ณด์.
[3] SAC ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํด ์์๋๋ฉด ์ข์ ์ฌ์ ์ง์
3-1. Entropy definition and Entropy Maximization framework in RL
3-2. Likelihood ratio and Reparameterization trick
3-3. Importance Sampling
3-4. Poliy iteration and A2C
3-5. KL-Divergence, its equation about Objective function
[4] SAC ์๊ณ ๋ฆฌ์ฆ ๋ฐ Q/Value/Policy network์ ๋ชฉ์ ํจ์
๋
ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
4-1. ํ์ต ์์ ์ ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ
4-2. Step์ ๋ฐ์ผ๋ฉด์ ํ์ฌ policy๋ก Replay Buffer์ ๊ฒฝํ ์ถ์
4-3. Network ๋ณ๋ก ๊ฐ Gradient Step์ ๋ฐ๋ผ ์ ๋ฐ์ดํธ ์งํ
Q/Value/Policy์ ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
ํ๋ฅ ์ log๋ฅผ ์์ด์ entropy ์ง์๋ก ๋ณํํจ. ์ด๋ฅผ ๋ณด์๊ณผ ๊ฐ์ด ์ต๋ํํ๋๋ก objective function์ ์ค๊ณํ์ฌ ์ ๋ฐ์ดํธ.
[5] SAC ์คํ ๊ฒฐ๊ณผ ๋ฐ Ablation Study
5-1. ํ๊ฒฝ: MuJoCo, rllab์ Continuos
5-2. Comparative Experiment Result: Walker ํ๊ฒฝ์ ์ ์ธํ๊ณค ๋ชจ๋ ํ๊ฒฝ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์
5-3. Ablation Study: stochastic vs deterministic
SAC๋ policy network๋ฅผ mean/std๋ฅผ ์ถ์ ํ๊ฒ ํ์ฌ ํ๋ฅ ๋ถํฌ์์ action์ ๋ฝ๋ ์.
ํ์ง๋ง ์ด๋ stochastic policy๊ฐ ์๋๋ผ deterministic(ํ๋ฅ ์ X) policy๋ฅผ ์ด์ฉํ ๊ฒฝ์ฐ, ์ฑ๋ฅ์ด stochastic๋ณด๋ค ๋์์ง๋ ์๊ฐ๋ ์์ง๋ง, ์ ์ฒด ํ์ต ํ๊ท (seed ํ๊ท )์ ๋์ ๋ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์. ํ์ต ์ถ์ด๋ stochastic์ด ์์ ์ ์์ ๋ณผ ์ ์์.
5-4. Ablation Study: Evaluation, Reward scale, Target Smoothing
ํ์ต ์ค ์ฑ๋ฅ testํ ๋, policy๋ก๋ถํฐ ๋์จ action์ stochasticํ๊ฒ ์ํ๋งํ ๊ฒฝ์ฐ๊ฐ policy network๋ก๋ถํฐ ๋์จ ํ๊ท ๊ฐ์ ์ด์ฉ(deterministic)ํ๋ ๊ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๊ฒ ๋์ด. ๋ณด์ ์ ๊ทํ์ ํ๊ฒ ๋คํธ์ํฌ์ ์ง์ํ๊ท ํ๋ผ๋ฏธํฐ๋ ์ ๋นํ๊ฒ ์ค์ ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์.
์ด๋, ๋ณด์ ์ ๊ทํ๋ entropy์ ๋ฐ์ ๋น์จ๊ณผ๋ ์ฐ๊ฒฐ์ด ๋๋๋ฐ, ํฐ ๊ฐ์ผ๋ก ์ ๊ทํ๋ฅผ ํ๋ค๋ฉด entropy ์ํฅ๋ ฅ์ด ์ปค์ง๋ค๋ ๊ฒ์ ํ์ธํด๋์ด์ผ ํจ.