๐งช Data Science(22)
-
[DL] Constrained Decoding
์ฐ๊ตฌ์ค์ ์์ฌ๋ถ์ด Constrained Decoding์ ๋ํ์ฌ ๋ฐํ๋ฅผ ์งํํ์ จ๋ค.๋ด์ฉ์ ๊ธฐ์ตํ๊ธฐ ์ํด ๋ณธ ํฌ์คํ ์ผ๋ก ์ ๋ฆฌํ๊ณ ์ ํ๋ค. Constrained Decoding: ์์ฐ์ ์์ฑ ์์ ์์ ์์ฑ๋ ํ ์คํธ๊ฐ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํ๋๋ก ๋ณด์ฅํ๋ ๋์ฝ๋ฉ ๋ฐฉ๋ฒ ์ ์ฉ ์ฌ๋ก- ํฌ๋งท ๊ฐ์ (์, ๋ ์ง ํ์)- ๋จ์ด ์ ํ ์ ํ- ๊ตฌ์กฐ์ ์ ์ฝ- ๋ ผ๋ฆฌ์ ์ ์ฝ Constrained Decoding FlowStep 1. ์ ๋ ฅ ์ฒ๋ฆฌ: ์ ๋ ฅ ๋ฌธ์ฅ๊ณผ ์กฐ๊ฑด์ ๋ ผ๋ฆฌ์ ์ผ๋ก ํํStep 2. Decoder Initialization: ๋์ฝ๋ ์ด๊ธฐํStep 3. Constraint Tracker ์์ฑ(์กฐ๊ฑด ์ถ์ ํ๋ Tracker ์ค์ )Step 4. ํ ํฐ ์์ฑ ๋ฐ๋ณต(ํ๋ณด ํ ํฐ ์ ํ๊ณ Constraint Filtering > ์ค์ฝ์ด ..
2024.12.03 -
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Sample-Efficient Multi-agent RL with Reset Replay
๋ค์ ์ฃผ, ์ฐ๊ตฌ์ค ๋ ผ๋ฌธ ์ธ๋ฏธ๋์์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐํ๋ฅผ ํ๋ค.๋ ผ๋ฌธ ์ ๋ชฉ์ "Sample-Efficient Multi-agent Reinforcement learning with Reset Replay (Yaodong Yang, 2024, ICML)" ๋ ผ๋ฌธ ํค์๋์ ๊ธฐ๋ณธ ๊ฐ๋ ๋ค์ ํ๊ณ , ์ธ๋ถ์ ์ธ ๋ด์ฉ์ ์ดํดํ๋ ๋ฐฉ์์ผ๋ก ์งํํ๊ณ ์ ํ๋ค. Keyword: Multi-agent Reinforcement learning, Sample Efficient, Reset Replay, Buffer https://openreview.net/forum?id=w8ei1o9U5y&referrer=%5Bthe%20profile%20of%20Pheng-Ann%20Heng%5D(%2Fprofile%3Fid%3D~Pheng-Ann_..
2024.11.11 -
[Paper review] TabNet: Attentive Interpretable Tabular Learning ๋ฐ TabNet ์ค์ต
์ฐ๊ตฌ์ค ๋ ผ๋ฌธ ์ธ๋ฏธ๋์์ ๋ค์ ๋ด์ฉ์ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.๋ ผ๋ฌธ ์ ๋ชฉ์ ' TabNet: Attentive Interpretable Tabular Learning'์ด๋ค. Paper link:https://ojs.aaai.org/index.php/AAAI/article/view/16826 TabNet: Attentive Interpretable Tabular Learning | Proceedings of the AAAI Conference on Artificial Intelligence ojs.aaai.org ๋ ผ๋ฌธ ๊ฐ๋จ ์ค๋ช Tabular ๋ฐ์ดํฐ์์ ์ฃผ๋ก ๊ฒฐ์ ํธ๋ฆฌ(Decision Tree) ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ๋ง์ด ์ฌ์ฉ๋๋ค. ํ์ง๋ง ํธ๋ฆฌ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํํ๋ ฅ์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ๋ฅ๋ฌ๋์ด ๋ค์ํ ๋ฐ์ดํฐ ์ ํ์ ์ฒ๋ฆฌํ๋ ..
2024.09.13 -
[๊ฐํํ์ต] SARSA์ DQN ๊ฐ๋ ์ ๋ฆฌ
์ฌ์ธต ๊ฐํํ์ต์ ์ฃผ์ ํฌ์ธํธ๋ฅผ ํ์คํ๊ฒ ํ์ ํ๊ณ ๋์ด๊ฐ๋ค.๊ทธ ํ, SARSA์ DQN์ ๊ฐ๋ ์ ์ ๋ฆฌํ๊ณ ๋์ ์ฐจ์ด์ ์ ๋น๊ตํ๋ค. * ๋ณธ ํฌ์คํ ์ ์ฑ 'Foundations of Deep Reinforcement Learning: Theory and Practice in Python'์ ์ฐธ๊ณ ํ๊ณ ์ ๋ฆฌํ ๊ฒ์์ ๋ฐํ๋๋ค. ํฌ์คํ ๋ด์ ์ฐ์ธ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ ๊ทธ๋ฆผ์ ์ฑ ์์ ๊ฐ์ ธ์จ ๊ฒ์ ๋๋ค. 1. Value-based Algorithm $V^{\pi}(s)$ or $Q^{\pi}(s, a)$ ์ด์ ํฌ์คํ ์์ ๋ค๋ฃฌ Model-based ๊ธฐ๋ฐ REINFORCE ์๊ณ ๋ฆฌ์ฆ์ agent๊ฐ ์ง์ policy๋ฅผ ํ์ตํด ๊ฐ๋ ๋ฐฉ์์ด์๋ค. ํ์ง๋ง ์ด๋ฒ Value-based ์๊ณ ๋ฆฌ์ฆ์ state-action ์์ ์ง์ ํ๊ฐํ๋ฉด..
2024.07.05 -
[Paper review] Towards maximizing expected possession outcome in soccer
์ด๋ฒ ํฌ์คํ ์์ ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ์'Towards maximizing expected possession outcome in soccer(2023)' by Pegah Rahimian https://journals.sagepub.com/doi/10.1177/17479541231154494?icid=int.sj-full-text.similar-articles.4 ๋ฅ๋ฌ๋ ์ ๊ฒฝ๋ง์ ์ด์ฉํ์ฌ ํ์ ๋๋ต์ ์ธ strategy๋ฅผ ํ์ ํ๊ณ , ๊ฑฐ๊ธฐ ์์ ๊ฐํํ์ต์ ํ์ฌ Optimal policy๋ฅผ ์ฐพ์๋ด๋ ๋ ผ๋ฌธ์ด๋ค. ํค์๋๋ RL๊ณผ ์ถ๊ตฌ๊ฐ ๋๊ฒ ๋ค.** ์ด ํฌ์คํ ์ ๋ชจ๋ figure๊ณผ ํ๋ ๋ฆฌ๋ทฐ ๋ ผ๋ฌธ์์ ๊ฐ์ ธ์จ ๊ฒ์์ ๋ฐํ๋ค. 1. Important QuestionHow to split the whole game into d..
2024.07.03 -
[๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ์ฝ๋ ๊ตฌํ
์ด๋ฒ ํฌ์คํ ์์ REINFORCE ์๊ณ ๋ฆฌ์ฆ์ Pytorch๋ก ๊ฐ๋จํ๊ฒ ๊ตฌํ์ ํด๋ณด๊ณ ์ ํ๋ค. ๋ค๋ฅธ RL Algorithms๊ณผ๋ ๋ฌ๋ฆฌ ์์ฃผ ๊ฐ๋จํ๊ฒ ์์ ํํ์ด ๊ฐ๋ฅํ์ฌ ์ด๋ ต์ง ์๋ค.๋ณธ ํฌ์คํ ์ ๋ณด๊ธฐ ์ , REINFORCE ๊ฐ๋ ์ ํ์คํ๊ฒ ์ธ์งํ๊ณ ์์ด์ผ ํจ์ ์๋ฆฐ๋ค. Last posting๋ด์ฉ: ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ธ REINFORCE์ ๊ฐ๋ ๊ณผ ์์์ ๋ํด ์ดํด๋ณด์๋ค.์์ฝ: reward์ ํฉ์ธ ๋ชฉ์ ํจ์๋ฅผ ์ต๋ํํ๋ ์ต์ ์ policy ์ฐพ๋ ๊ฒ์ด ๋ชฉํ์ธ ์๊ณ ๋ฆฌ์ฆ https://mengu.tistory.com/136 [๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ๊ฐ๋ ๋ฐ ์์๊ฐํํ์ต์ ๋ํด ๊ณต๋ถํ๊ณ ์์ด, ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์์๊ณผ ์ฝ๋๋ฅผ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.์ด ํฌ์คํ ์ ์ฒซ ๋ฐ๊ฑธ์์ด๋ฉฐ, REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋..
2024.06.02