2024. 11. 11. 10:41ใ๐งช Data Science/Paper review
๋ค์ ์ฃผ, ์ฐ๊ตฌ์ค ๋ ผ๋ฌธ ์ธ๋ฏธ๋์์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐํ๋ฅผ ํ๋ค.
๋ ผ๋ฌธ ์ ๋ชฉ์ "Sample-Efficient Multi-agent Reinforcement learning with Reset Replay (Yaodong Yang, 2024, ICML)"
๋ ผ๋ฌธ ํค์๋์ ๊ธฐ๋ณธ ๊ฐ๋ ๋ค์ ํ๊ณ , ์ธ๋ถ์ ์ธ ๋ด์ฉ์ ์ดํดํ๋ ๋ฐฉ์์ผ๋ก ์งํํ๊ณ ์ ํ๋ค.
Keyword: Multi-agent Reinforcement learning, Sample Efficient, Reset Replay, Buffer
1. Introduction/Background: MARL & ๊ทธ ์ธ ๊ฐ๋
MARL(Multi-Agent Reinforcement Learning)์ Single ๊ฐํํ์ต๊ณผ ๋ฌ๋ฆฌ ๋ค์์ ์์ด์ ํธ๊ฐ ์กด์ฌํ๋ค. ์์ด์ ํธ๋ค์ ํ๊ฒฝ๊ณผ ์๋ก์ ํ๋์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ์์ ์ ์ ์ฑ ์ ์ต์ ํํ๋ค. ์๋ก์ ํ๋์ ๊ณ ๋ คํ๊ธฐ์, MARL์์ ํ๋ ฅ(Cooperation), ๊ฒฝ์(Competition), ์ํธ์์ฉ(Dynamics)์ด ์ค์ํ ์์๋ก ์์ฉํ๋ค. ์ฌ๋ฌ ์์ด์ ํธ์ ์ํธ ์์ฉ์ ์ ์ฑ ํ์ต์ ๊ณ ๋ คํด์ผ ํ๊ธฐ ๋๋ฌธ์ Sample Efficient๊ฐ ์ค์ํด์ง๋ค. ๋ ผ๋ฌธ์ ์ด Sample Efficient๋ฅผ ์ฌ๋ฆฌ๋ฉด์ ํ์ต ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
1.1. MDP(Markov decision process) โก๏ธ Markov Games
๋ฉํฐ ์์ด์ ํธ๋ ๋จ์ผ ์์ด์ ํธ๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ธ MDP์ ํ์ฅ๋ ๋ฒ์ ์ธ Markov Games๋ฅผ ์ด๋ค. ๋ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ ๋ชจ๋ ๊ตฌ์ฑ์์๋ ๊ฐ๋ค. ์ํ ๊ณต๊ฐ(State), ํ๋ ๊ณต๊ฐ(Action), ์ํ ์ ์ด ํจ์(P(s|a)), ๋ณด์ ํจ์(R(s, a)), ํ ์ธ ์ธ์(gamma).
๋ค๋ง, Markov Games๋ ํ๊ฒฝ๊ณผ ๋๋ถ์ด ๋ค๋ฅธ ์์ด์ ํธ์ ํ๊ฒฝ๋ ๋ชจ๋ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ์์์ ๊ฐ์ง๋ค.
(1) ์ํ ์ ์ด ํจ์: $$ P(s' \mid s, a_1, a_2, \dots, a_n) $$
(2) ๊ฐ ์์ด์ ํธ i์ ๋ํ ๋ณด์ ํจ์: $$ R_i(s, a_1, a_2, \dots, a_n) $$
(3) ๋ชฉํ ํจ์: $$ R_i = \sum_{t=0}^{\infty} \gamma^t r_i(s_t, a_{1,t}, a_{2,t}, \dots, a_{n,t}) $$
์์ ์ธ๊ธํ๋ฏ์ด, Markov Games์์ ์๋ก์ ํ๋๋ค์ด ๋ชจ๋ ๊ณ ๋ ค๋จ์ ์ ์ ์๋ค. State๋ ์ด์ ํ๊ฒฝ์ ๋ฌผ๋ก , ๊ฐ ์์ด์ ํธ์ ํ๋๋ค์ ์ํฅ์ ๋ฐ๋๋ค. ๋์ ํ๊ฒฝ, ์์ด์ ํธ๋ผ๋ฆฌ์ ์ํธ์์ฉ์ด ์กด์ฌํ๊ธฐ์ ์๋์ ์ผ๋ก ๋ณต์ก๋๊ฐ ๋๊ณ , ๋ง์ ํ์ต์ ํ์๋ก ํ๋ค.
Series(์ง๋ ฌ ๋ฐฉ์): ๊ฐ ์์ด์ ํธ๊ฐ ์์ฐจ์ ์ผ๋ก ํ์ตํ๋ค. ํ ๋ฒ์ ํ ์์ด์ ํธ๋ง ํ์ตํ๊ณ ๋๋จธ์ง ๋๊ธฐ ์ํ. ์ํธ์์ฉ ํจ๊ณผ ๋ฎ์.
Parrallel(๋ณ๋ ฌ ๋ฐฉ์): ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ๋์ ํ์ต. ์ ์ (์ผ์ ๊ธฐ๊ฐ ์ ์ฑ ์ ์ง), ๋์ (๊ฒฐ๊ณผ ์ฆ์ ๋ฐ์) ์ ์ฑ ์ ๋ฐ์ดํธ๊ฐ ์กด์ฌํ๋ค. ๋ฉํฐ ์์ด์ ํธ๋ ๋ณดํต ํจ์จ์ฑ๊ณผ ํ์ต ์๋๋ฅผ ์ํด Parrallel ๋ฐฉ์์ ์ ํธํ๋ค.
1.2. Replay Ratio, Sample Efficient
๋ฉํฐ ์์ด์ ํธ๋ ์ํ ๊ณต๊ฐ์ด ๊ณ ์ฐจ์์ ์ด๋ฉฐ Single Agent์ ๋นํด ํจ์ฌ ๋ค์ํด์ง ์ํฉ์ ์ ์ฑ ์ผ๋ก ์ผ๋ฐํํด์ผ ํ๊ธฐ์, ๋ง์ ์ํ์ ํ์๋ก ํ๋ค. Sample Efficient๋ฅผ ๋์ฑ ๊ฐ์ถ๊ธฐ ์ํ ๋ ธ๋ ฅ์ ๊ณผ์ ์ด ๋ ผ๋ฌธ์ ์ฃผ์ ์์ ์ฐธ๊ณ .
Replay Ratio๋ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ ๋๋ง๋ค Agent์ parameters๋ฅผ ์ ๋ฐ์ดํธํ๋ ํ์์ด๋ค. ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ๋น์ฉ์ด ๋ ๋ค. ์ต๋ํ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด, Environments interaction 1ํ๋ง๋ค ์ ๋ฐ์ดํธ๋ฅผ ์ฌ๋ฌ ๋ฒ ํด์ฃผ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ์ฌ๋ฌ ๋ฒ ํด์ฃผ๋ฉด Sample Efficient(์ํ ํจ์จ์ฑ)๋ฅผ ์ฆ๊ฐ์ํฌ ์ ์๋ค.
์ํ ํจ์จ์ฑ์ด๋? ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ๋ ์ด๋ค. Sample Efficient๋ฅผ ๊ฐ์ก๋ค๋ฉด ์ ์ ๋ฐ์ดํฐ๋ก ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ ํฅ์ํ ์ ์์์ ์๋ฏธํ๋๋ฐ, Replay Ratio๋ฅผ ์ฌ๋ฆฌ๋ฉด ์ง๊ด์ ์ผ๋ก ์ ์ ์ํธ์์ฉ(์ ์ ๋ฐ์ดํฐ, ์ ์ ๋น์ฉ)์ผ๋ก ๋ค์ ํ์ต์ ํตํด ์ํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑ์ํจ๋ค. ๋ฐ๋ผ์ Replay Ratio๋ Sample Efficient์ ๊ฐํ ์ฐ๊ด์ฑ์ ๊ฐ์ก๋ค๊ณ ํ ์ ์๋ค.
Sample Efficient ์์: Replay Buffer์์ ์ํ๋ง๋๋ ๋ฐ์ดํฐ ๊ฒฝํ์ ํ์์ ๋ํ ๊ธฐ๋๊ฐ์ ๋ํ๋ธ๋ค.
$$
\mathbb{E}[N_{\text{sampled}}] = \frac{N_{\text{RR}} \cdot N_{\text{B}}}{V \cdot T_{\text{U}}}
$$
(1) $$ N_{\text{RR}} $$ : Replay ratio. ์ํธ์์ฉ ํ ๋ฒ์ ๋ช ๋ฒ์ ์ ๋ฐ์ดํธ๊ฐ ์ํ๋์๋๊ฐ๋ฅผ ๋ํ๋ธ๋ค.
(2) $$ N_{\text{B}} $$ : Batch size. ๋ฆฌํ๋ ์ด ๋ฒํฐ์์ ์ํ๋ง๋ ๊ฒฝํ ๋ฐ์ดํฐ์ ๊ฐ์
(3) V : Data acquisition Speed. ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ๋์ ๋จ์ ์๊ฐ๋ง๋ค ์์ง๋๋ ๋ฐ์ดํฐ ๊ฒฝํ์ ๊ฐ์
(4) $$ T_{\text{U}} $$ : Update interval. ์ ๋ฐ์ดํธ๊ฐ ์ด๋ฃจ์ด์ง๋ ์๊ฐ ๊ฐ๊ฒฉ์ ๋ํ๋ธ๋ค.
๋ง์ฝ $$ N_{\text{RR}} = 4 \quad | \quad N_{\text{B}} = 32 \quad | \quad V = 2 \quad | \quad T_{\text{U}} = 4 $$ ๋ผ๋ฉด, Sample Efficient๋ 16์ด๋ค. ๊ฐ 4 ์คํ ๋ง๋ค 1ํ์ ์ํธ์์ฉ์ด ์ผ์ด๋๋ค. ์ํธ์์ฉ๋ง๋ค 4๋ฒ์ ์ ๋ฐ์ดํธ๊ฐ ์งํ๋๊ณ , 1๋ฒ์ ์ ๋ฐ์ดํธ๋ง๋ค 32๊ฐ์ ๋ฐ์ดํฐ ๊ฒฝํ์ด ์ฐ์ธ๋ค. ๋ง์ฝ 30 ์คํญ์ด ์งํ๋์๋ค๋ฉด, ์ด 7~8ํ ์ ๋ฐ์ดํธ๊ฐ ์ด๋ค์ก์ผ๋ฉฐ, ์ด 60๊ฐ์ ๋ฐ์ดํฐ ๊ฒฝํ(30x2)์ด ์์ง๋ ๊ฒ์ด๋ค.
์์๋ง ๋ณธ๋ค๋ฉด, ๋ค๋ฅธ ๊ฐ๋ค์ด ๊ณ ์ ๋์ด ์๋ค๋ ๊ฐ์ ํ์ Replay Ratio๋ง ์ฆ๊ฐ์ํค๋ฉด Sample Efficient๋ฅผ ๊ทน๋ํํ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
1.3. Plasticity Loss in Reinforcement Learning
ํ์ง๋ง ๋ฌด๋ถ๋ณํ๊ฒ Replay Ratio๋ง ์ฆ๊ฐ์ํค๋ฉด Plasticity Loss๊ฐ ๋ฐ์ํ์ฌ ํ์ต์ ๋ถ์ ์ ์ธ ์ํฅ์ ์ค ์ ์๋ค.
Plasticity๋ ์ ๊ฒฝ๊ณผํ๊ณผ ์ฐ๊ด์ด ์๋ ๊ฐ๋ ์ผ๋ก, ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ์ฌ ์ ์ฑ ์ด๋ ํ๋์ ๋ณํ์ํค๊ณ ์ ์ํ๋ ๋ฅ๋ ฅ์ ๋งํ๋ค. ์ฆ, ์ํธ์์ฉ ํ ๋ฒ์ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํ์ต์ ๋๋ฌด ๋ง์ด ๋ฐ๋ณตํ๋ฉด ๋ชจ๋ธ์ด ์ ์ ๋ฅ๋ ฅ์ ์๊ฒ ๋๋ ๊ฒ์ด๋ค.
Plasticity๋ฅผ ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ์ด๊ธฐ ์ฑ๋ฅ(baseline b)๊ณผ ์ต๊ทผ ์ ๋ฐ์ดํธ๋ ํ๋ผ๋ฏธํฐ์ loss ๊ธฐ๋๊ฐ์ ๋น๊ตํ๋ค. ์ด ์ฐจ์ด๊ฐ ํด์๋ก ๊ฐ์์ฑ์ด ๋์์ ์๋ฏธํ๋ค.
$$ P(\theta_t) = b - \mathbb{E}_{l \sim L}[l(\theta^*_t)], \quad \text{where} \quad \theta^*_t = \text{OPT}(\theta_t, l) $$
Plasticity Loss๋ ๋ค์๊ณผ ๊ฐ๋ค. ํ์ต ๊ณผ์ ์์ ๋คํธ์ํฌ ์ ์ ๋ฅ๋ ฅ์ด ์ผ๋ง๋ ๊ฐ์ํ๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ์ด๋ค. ํ์ต ์ด๊ธฐ ์์ ๊ณผ ๋ง์ง๋ง ์์ ์ ์ฐจ์ด๋ก ๊ณ์ฐ๋๋ค.
$$ P(\theta_{t=K}) - P(\theta_{t=0}) $$
์์ ๊ฐ์์ฑ์ด ํ์ต ์์๋ถํฐ ๋๊น์ง ์ผ์ ํ๊ฒ ์ ์ง๋๋ค๋ฉด, ๋ชจ๋ธ์ด ํ์ต ํ์๋ ์๋ก์ด ํ๊ฒฝ์ ๋ํ ์ ์ ๋ฅ๋ ฅ์ ์์ง ์์์์ ์๋ฏธํ๋ค.
๋ ผ๋ฌธ์ Sample Efficient๋ฅผ ์ํด Replay Ratio๋ฅผ ์ฌ๋ฆฌ๋ฉด์๋ Plasticity Loss๊ฐ ๋ฐ์ํ์ง ์๋ 2๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
2. Method & Algorithm
2.1. ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ: Shrink & Perturb
์์์ ์ธ๊ธํ๋ ๋๋ก, Replay ratio๋ง ๋์ด๋ฉด ๊ฐ์์ฑ ์์ค์ด ๋ฐ์ํ๋ค. ์ด๋ ํ์ต์ ๋ถ์์ ํ๊ฒ ํ๊ณ , agent๊ฐ ํ์ตํ๋ ์ ์ฑ ์ ํ๋ฆฌํฐ๋ฅผ ๋จ์ด๋จ๋ฆฐ๋ค. ์ฆ, ์ค๋ฒํผํ ์ด ๋ฐ์ํ๊ฒ ๋๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด Shrink&Perturb(์ค์ด๊ธฐ+๋ณํ)์ด๋ค. ๊ฐ์์ฑ ์ ์ง๋ฅผ ์ํด ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ผ์ ์ฃผ๊ธฐ์ ๋ฐ๋ผ reset ์ํค๋ ๊ฒ์ด๋ผ ๋ณด๋ฉด ๋๋ค.
MARL์ ์ค์ํ ์์์ธ ์ค์ ์ง์ค์ ๋นํ๊ฐ(Centralized critic network)์ ์์ด์ ํธ ์ ์ฑ ํน์ Q-value network์ ๊ฐ์์ฑ์ ์ฃผ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
"MARR performs Shrink & Perturb to inject plasticity into both the centralized critic network and each agent's policy or Q-value network to recover learning abiliity of these networks" -paper-
Formulation of Shrink&Perturb in MARR(=MARL + ๋ ผ๋ฌธ ์ ์ ๋ฐฉ์)
(1) Agent's policy parameters
$$ \theta_i^t \leftarrow \alpha \theta_i^t + (1 - \alpha) \theta_i^0, \quad \text{for } i = 1, 2, \ldots, N $$
(2) Centralized critic network parameters
$$ \phi^t \leftarrow \alpha \phi^t + (1 - \alpha) \phi^0 $$
Interpolation factor์ธ ์ํ๋ ์ต๊ทผ parameters๋ฅผ ์ผ๋ง๋ ๋จ๊ฒจ๋์ง๋ฅผ ์ ํ๋ค. ์์์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด ์ด๊ธฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ผ๋ถ ์ฃผ๊ธฐ์ ์ผ๋ก ๊ฐ์ ธ์ด์ผ๋ก์จ ์ด๊ธฐ์ ๊ฐ์์ฑ์ ํ์ฌ ๋ชจ๋ธ์ ๊ณ์ ์ฃผ์ ํ๋ ๊ฒ์ด๋ผ ์๊ฐํ๋ฉด ๋๋ค.
์ด๋ ๊ฒ ๋๋ฉด high-replay-ratio๊ฐ ๊ฐ๋ฅํด์ง์ง๋ง, same transition experience๋ฅผ ์ ๋ฐ์ดํธํ ํ๋ฅ ์ด ๋์์ง๊ฒ ๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ํด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด Data Augmentation์ด๋ค.
2.2. ๋ ๋ฒ์งธ ๋ฐฉ๋ฒ: Random amplitude Scale - Data Augmentation
์ํ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ํด์ ์ํ๋ง๋ transition batch B์ data augmentation์ ์ ์ฉํ๋ค. ๋ฐฉ์์ random amplitude scale ๋ฐฉ์์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ ๋ฐฉํฅ์ฑ์ ์ ์งํ ์ํ์์ ๋๋ค์ผ๋ก ์งํญ์ ๋ฐ๊พธ๋ ์์ผ๋ก ์งํํ๋ค.
a sampled transition experience
$$ (s, o, a_t, r, s', o') $$
Agent๊ฐ ๊ฒฝํํ๋ observation๊ณผ state๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก Scaling๋๋ค.
$$ o_i \leftarrow o_i \times z, \quad o'_i \leftarrow o'_i \times z, \quad \text{for } i = 1, 2, \ldots, N $$
$$ s \leftarrow s \times z, \quad s' \leftarrow s' \times z $$
z๋ range[a, b]๋ฅผ ๊ฐ์ง uniform distribution์ ๋๋ค ๊ฐ์ด๋ค. * z ~ U(a, b)
Random amplitude scale์ ๋ฐฐ์น๋ณ๋ก ๋๋ค ํ๊ฒ ์ ์ฉ๋์ง๋ง, ์๊ฐ์ ๋ํด์ ์ผ๊ด์ฑ์ ๊ฐ์ง๋ค.
3. Experiment & Ablation Study
3.1. MARR ์ฑ๋ฅ ๋น๊ต
SMAC(์คํํฌ๋ํํธ) ํ๊ฒฝ์์ ์ ๋ช ํ ๋ชจ๋ธ๋ก๋ QMIX, QPLEX, ATM ๋ฑ์ด ์๋ค. ์ด ๋ชจ๋ธ์ ๋ํ์ฌ MARR์ ์ ์ฉํ์ ๋, ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ํฅ์๋์๋์ง ๋น๊ตํ๋ ์คํ์ ์งํํ์๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ชจ๋ ์๋๋ฆฌ์ค์์ MARR์ ์ ์ฉํ ๋ชจ๋ธ์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ์ ์ ์๋ค.
s: Stalkersm
sc: Spine Crawler
z: Zealot
m: Marine
3.2. Parallel Setting and Series Setting with Replay Ratio
์ฒซ ๋ฒ์งธ Ablation Study๋ก ๋ณ๋ ฌ(Parallel) ํ์ต์ด ์์ฐจ์ (Series) ํ์ต๋ณด๋ค High replay ratio์ ๋ ์ ์ ํ์ง๋ฅผ ํ์ธํ๋ค. ์์ ์ด๋ฏธ์ง์์ Replay ratio๋ง ๋ฐ๊ฟ์ฃผ๋ฉฐ ๊ฐ ๋ฐฉ์์ผ๋ก ํ์ตํ์ ๋์ ์ฑ๋ฅ์ ํ์ธํ ์ ์๋ค. Parallel์ด Series๋ณด๋ค Replay Ratio for good performance๊ฐ ๋์ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๋ ๋ฒ์งธ Ablation Study๋ก MARR์ replay ratio๋ณ ์ฑ๋ฅ ํ์ธ์ด๋ค. ๋ ์๋๋ฆฌ์ค์์ ๋จ์ Series, Parallel๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋ง์ฐฌ๊ฐ์ง๋ก ์ต์ Replay ratio๊ฐ ์กด์ฌํ๋ฉฐ, ์ด๋ ๋ค๋ฅธ ๋ ๋ชจ๋ธ๋ณด๋ค ๊ฐ์ด ๋์๋ค.
3.3. Component of MARR, Shrink & Perturb and Data Augmentation
MARR์ ๊ฐ Component๋ฅผ ์ ์ฉํ์ ๋์ ์ ํ์ ๋๋ฅผ ๋น๊ตํ ์คํ๋ ์งํํ๋ค. ์คํ์ ๋ฐ๋ฅด๋ฉด, Baseline์์ Data augmentation๋ง ์งํํ์ ๋๋ ์ฑ๋ฅ ํฅ์์ด ํฌ์ง ์์์ง๋ง, Baseline์์ S&P๋ฅผ ์ ์ฉํ์ ๋ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค.
3.4. Experiment Analysis of Network Plasticity
๋ ผ๋ฌธ์ ์ฃผ์ Contribution์ธ Plasticity loss ๋ฐฉ์ง ์ฑ๋ฅ์ ํ์ธํ๋ค. L2 gap๋ฅผ ์ฌ์ฉํ์ฌ loss ์ ๋ฌด๋ฅผ ํ์ธํ๋ค.
L2 gap์ ๋ ๋ฒกํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. L2 gap์ ํ๋ จ๋ ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ์ ์ด๊ธฐ ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ๊ฐ์ผ๋ก, ์์์ ๋ค์๊ณผ ๊ฐ๋ค:
$$
\| \theta_{\text{trained}} - \theta_{\text{initial}} \|_2 = \sqrt{\sum_{i} (\theta_{\text{trained}, i} - \theta_{\text{initial}, i})^2}
$$
์ฌ๊ธฐ์:
$$ \theta_{\text{trained}} $$๋ ํ๋ จ๋ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ ๋ฒกํฐ,
$$ \theta_{\text{initial}} $$๋ ์ด๊ธฐ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ ๋ฒกํฐ.
3.5. Analysis of Running Time
MARR์ ํ์ต ํจ์จ์ ๋์ด๋๋ฐ ์ง์คํ๋ค. ๋ณ๋ ฌ ํ์ต๊ณผ ๋์ ์ฌ์ฌ์ฉ ๋น์จ์ ์ ์ฉํ์ฌ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ์ค์ด๋ ๋์ ๋คํธ์ํฌ ํ์ต์ ์ง์คํ ์ ์๋๋ก ํ๋ค.
์๊ฐ ์์ ์์์ ๋ถ์ํ๋ฉด, ์ด๊ฒ์ด ์ฌ์ค์์ ํ์ธํ ์ ์๋ค.
์ ์ฒด ์คํ ์๊ฐ์ ์ ์ฒด ์ํธ์์ฉ์ ๋ ์๊ฐ ํญ๊ณผ ๋คํธ์ํฌ ์ ๋ฐ์ดํธ ์๊ฐ ํญ์ผ๋ก ์ด๋ค์ ธ ์๋ค.
$$
h_{\text{tot}} = \frac{T_{\text{tot}} \cdot h_{\text{env}}}{P_{\text{env}}} + \frac{T_{\text{tot}} \cdot NRR \cdot h_{\text{upt}}}{T_U} + h_{\text{rst}}
$$
์ฒซ ๋ฒ์งธ ํญ: (์ ์ฒด ์ํธ์์ฉ ํ์ * ์ํธ์์ฉ๋น ์คํ ์๊ฐ)/๋ณ๋ ฌ ํ๊ฒฝ ์
๋ ๋ฒ์งธ ํญ: (์ ์ฒด ์ํธ์์ฉ ํ์ * NRR * ์ ๋ฐ์ดํธ ๋น ์คํ ์๊ฐ)/๋คํธ์ํฌ ์ ๋ฐ์ดํธ ๊ฐ๊ฒฉ
์ธ ๋ฒ์งธ ํญ: ๊ธฐํ ์ด๊ธฐํ๋ ๋ถ๊ฐ ์์ ์ ๋๋ ์๊ฐ
MARR์ ํ์ฉํ๋ฉด ์ ์ฒด ์ํธ์์ฉ ํ์ ๋ฐ ์๊ฐ์ ์ค์ด๋ฉด์ NRR์ ๋๋ฆฌ๊ธฐ์, ๋คํธ์ํฌ ์ ๋ฐ์ดํธ์ ์๊ฐ์ ์ง์ค์ํค๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค.
4. Limitations
(1) On-policy ๋ฐฉ์์ ๋ํ ๋ถ์ ํฉ์ฑ
๋ณธ ๋ ผ๋ฌธ์ off-policy์์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ buffer์์ ๊บผ๋ด์์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณต ํ์ตํ๋ ๊ฒ์ด ํต์ฌ์ด๋ค. ํ์ง๋ง on-policy๋ ํ์ฌ ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฆ์ ํ์ฉํ์ฌ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๊ธฐ์ ์ ์ ํ์ง ์๋ค.
(2) ๋ฐ์ดํฐ ํ์ง ๋ฌธ์
MARR์ ์ค์ ์ํฉ์ ์ ์ฉํ๋๋ฐ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. ๋๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ํ์ฉํ๊ธฐ์, ์๋ณธ ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๊ฐ ๋์ฑ ์ค์ํด์ง๋ค. ํ์ง๋ง ์ค์ ๋ฐ์ดํฐ๋ ๋ ธ์ด์ฆ๊ฐ ๊ปด์๋ ๊ฒฝ์ฐ๊ฐ ๊ต์ฅํ ๋ง๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ์ ์ฑ๋ฅ์ด ๋ฐํ๋์ง ์์ ์ ์๋ค.
(3) ํน์ ์ํฉ์์์ ์งํญ ์ ์ฉ ๋ฌธ์
์ ํ์ ์ผ๋ก ์ค์ผ์ผ๋ง๋ ํน์ฑ๋ค์ ๋ํด์ , ๋ณํ๋ฅผ ์ํค๋๋ผ๋ ์ ํ์ ์ธ ํน์ฑ์ด ์ ์ง๋์ด์ผ ํ๋ค. ์ด๋ ๋ฏ ๋๋ค ์งํญ ์ค์ผ์ผ๋ง์ด ์ด๋ ค์ด ์ํฉ์ด ์กด์ฌํ๋ค.