๐งช Data Science/ML, DL(8)
-
[DL] Constrained Decoding
์ฐ๊ตฌ์ค์ ์์ฌ๋ถ์ด Constrained Decoding์ ๋ํ์ฌ ๋ฐํ๋ฅผ ์งํํ์ จ๋ค.๋ด์ฉ์ ๊ธฐ์ตํ๊ธฐ ์ํด ๋ณธ ํฌ์คํ ์ผ๋ก ์ ๋ฆฌํ๊ณ ์ ํ๋ค. Constrained Decoding: ์์ฐ์ ์์ฑ ์์ ์์ ์์ฑ๋ ํ ์คํธ๊ฐ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํ๋๋ก ๋ณด์ฅํ๋ ๋์ฝ๋ฉ ๋ฐฉ๋ฒ ์ ์ฉ ์ฌ๋ก- ํฌ๋งท ๊ฐ์ (์, ๋ ์ง ํ์)- ๋จ์ด ์ ํ ์ ํ- ๊ตฌ์กฐ์ ์ ์ฝ- ๋ ผ๋ฆฌ์ ์ ์ฝ Constrained Decoding FlowStep 1. ์ ๋ ฅ ์ฒ๋ฆฌ: ์ ๋ ฅ ๋ฌธ์ฅ๊ณผ ์กฐ๊ฑด์ ๋ ผ๋ฆฌ์ ์ผ๋ก ํํStep 2. Decoder Initialization: ๋์ฝ๋ ์ด๊ธฐํStep 3. Constraint Tracker ์์ฑ(์กฐ๊ฑด ์ถ์ ํ๋ Tracker ์ค์ )Step 4. ํ ํฐ ์์ฑ ๋ฐ๋ณต(ํ๋ณด ํ ํฐ ์ ํ๊ณ Constraint Filtering > ์ค์ฝ์ด ..
2024.12.03 -
[๊ฐํํ์ต] SARSA์ DQN ๊ฐ๋ ์ ๋ฆฌ
์ฌ์ธต ๊ฐํํ์ต์ ์ฃผ์ ํฌ์ธํธ๋ฅผ ํ์คํ๊ฒ ํ์ ํ๊ณ ๋์ด๊ฐ๋ค.๊ทธ ํ, SARSA์ DQN์ ๊ฐ๋ ์ ์ ๋ฆฌํ๊ณ ๋์ ์ฐจ์ด์ ์ ๋น๊ตํ๋ค. * ๋ณธ ํฌ์คํ ์ ์ฑ 'Foundations of Deep Reinforcement Learning: Theory and Practice in Python'์ ์ฐธ๊ณ ํ๊ณ ์ ๋ฆฌํ ๊ฒ์์ ๋ฐํ๋๋ค. ํฌ์คํ ๋ด์ ์ฐ์ธ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ ๊ทธ๋ฆผ์ ์ฑ ์์ ๊ฐ์ ธ์จ ๊ฒ์ ๋๋ค. 1. Value-based Algorithm $V^{\pi}(s)$ or $Q^{\pi}(s, a)$ ์ด์ ํฌ์คํ ์์ ๋ค๋ฃฌ Model-based ๊ธฐ๋ฐ REINFORCE ์๊ณ ๋ฆฌ์ฆ์ agent๊ฐ ์ง์ policy๋ฅผ ํ์ตํด ๊ฐ๋ ๋ฐฉ์์ด์๋ค. ํ์ง๋ง ์ด๋ฒ Value-based ์๊ณ ๋ฆฌ์ฆ์ state-action ์์ ์ง์ ํ๊ฐํ๋ฉด..
2024.07.05 -
[๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ์ฝ๋ ๊ตฌํ
์ด๋ฒ ํฌ์คํ ์์ REINFORCE ์๊ณ ๋ฆฌ์ฆ์ Pytorch๋ก ๊ฐ๋จํ๊ฒ ๊ตฌํ์ ํด๋ณด๊ณ ์ ํ๋ค. ๋ค๋ฅธ RL Algorithms๊ณผ๋ ๋ฌ๋ฆฌ ์์ฃผ ๊ฐ๋จํ๊ฒ ์์ ํํ์ด ๊ฐ๋ฅํ์ฌ ์ด๋ ต์ง ์๋ค.๋ณธ ํฌ์คํ ์ ๋ณด๊ธฐ ์ , REINFORCE ๊ฐ๋ ์ ํ์คํ๊ฒ ์ธ์งํ๊ณ ์์ด์ผ ํจ์ ์๋ฆฐ๋ค. Last posting๋ด์ฉ: ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ธ REINFORCE์ ๊ฐ๋ ๊ณผ ์์์ ๋ํด ์ดํด๋ณด์๋ค.์์ฝ: reward์ ํฉ์ธ ๋ชฉ์ ํจ์๋ฅผ ์ต๋ํํ๋ ์ต์ ์ policy ์ฐพ๋ ๊ฒ์ด ๋ชฉํ์ธ ์๊ณ ๋ฆฌ์ฆ https://mengu.tistory.com/136 [๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ๊ฐ๋ ๋ฐ ์์๊ฐํํ์ต์ ๋ํด ๊ณต๋ถํ๊ณ ์์ด, ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์์๊ณผ ์ฝ๋๋ฅผ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.์ด ํฌ์คํ ์ ์ฒซ ๋ฐ๊ฑธ์์ด๋ฉฐ, REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋..
2024.06.02 -
[๊ฐํํ์ต] REINFORCE ์๊ณ ๋ฆฌ์ฆ : ๊ฐ๋ ๋ฐ ์์
๊ฐํํ์ต์ ๋ํด ๊ณต๋ถํ๊ณ ์์ด, ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์์๊ณผ ์ฝ๋๋ฅผ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.์ด ํฌ์คํ ์ ์ฒซ ๋ฐ๊ฑธ์์ด๋ฉฐ, REINFORCE ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ๋ค๋ฃจ๊ฒ ๋ค.ํ์ดํ ! ๋ณธ ํฌ์คํ ์ ์ฑ Foundation of Deep Reinforcement Learning / laura.G์์ ์์ ๋ฐ ๋ด์ฉ์ ์ฐธ๊ณ ํ์ฌ ์ฐ์ธ ๊ธ์ ๋๋ค. 1. REINFORCE ๊ฐ๋ 1.1. Model-free vs Model-Based ๊ฐํํ์ต์ ํฌ๊ฒ Model-free, Model-Based๋ก ๋๋๋ค. Model-Based ๊ฐํํ์ต์ trajectory๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ค. ๋ค์ํ ๊ฐ์ง์์ action์ ๋ํ ํ๋ฅ ๋์ trajectory๋ฅผ ์์ธกํ ์ ์๋๋ฐ, ์ด ๊ฒฝ์ฐ ๋ฌด์์๋ก sampling ๋ trajectory๋ฅผ..
2024.05.27 -
[ML] ์ฐจ์ ์ถ์ (1) - ์ ์, PCA, ์์ ์ฝ๋
ํฌ๊ฒ ์ ์๋ฏธํ์ง ์์ ์ ๋ณด๋ ๋ฒ๋ฆฌ๊ฑฐ๋ ๋ญ์ณ๋ผ. ์ด๋ฒ ๋ธ๋ก๊ทธ์์ ์ฐจ์ ์ถ์์ ๋ํด ๋ค๋ฃจ๊ณ ์ ํ๋ค. ์ ์ฐจ์์ ์ถ์ํด์ผ ํ๊ณ , ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ค ๋ฐฉ๋ฒ๊ณผ ์ํ์ ์๋ฆฌ๊ฐ ์กด์ฌํ๋์ง ์ดํด๋ณด์. 1) ์ฐจ์์ ์ ์ฃผ ์ฌ๊ธฐ ๋๋ฌผ์ ๋ถ๋ฅํด์ผ ํ๋ ๋ฌธ์ ๊ฐ ์๋ค. ๋๋ฌผ์ ํ๋ จ ์ํ์ด๋ผ ์ง์นญํ๊ณ , ๋๋ฌผ๋ค์ ํน์ฑ 500๊ฐ๊ฐ ์ฃผ์ด์ก๋ค๊ณ ํ๊ฒ ๋ค. ํน์ฑ๋ค์ ๋ฐํ์ผ๋ก ํ ๋ผ, ๊ณ ์์ด, ๊ฑฐ๋ถ์ด๋ฅผ ๋ถ๋ฅํด์ผ ํ๋ค. ํน์ฑ์ด ๋ง์์๋ก ์ ํํ ๋ถ๋ฅ๋ฅผ ํ ์ ์์ ๊ฒ ๊ฐ์ง๋ง, ์ค์์ ๊ทธ๋ ์ง ์๋ค. ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋ ๊ณ์ฐ๋์ผ๋ก ์ธํด ๋ชจ๋ธ ํ๋ จ์ด ๋๋ ค์ง๊ณ , ์ข์ ์๋ฃจ์ ์ ์ฐพ๊ธฐ ํ๋ค์ด์ง๋ค. ๋ํ ๊ณผ๋์ ํฉ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค. A, B ๊ฐ์ฒด๊ฐ 2๊ฐ์ ํน์ฑ์ ๊ฐ์ก์ ๋, ์๋์ ๊ฐ์ด ๊ทธ๋ํ๋ก ๋ํ๋ผ ์ ์๋ค. A์ B์ ๊ฑฐ๋ฆฌ๋ \[\sqrt{(5-2)^..
2024.02.26 -
[์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ] ALS ๊ฐ๋ , Basic ํ๊ฒ feat. ์ฝ๋ X
Alternating Least Squares ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋๋ก, ๊ต๋ ์ต์ ์ ๊ณฑ๋ฒ์ด๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค. ์ด๋ฒ ํฌ์คํ ์์ ๊ฐ๋จํ ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ ๋ค์ ์ดํด๋ณด๊ณ , ALS์ ์ฅ์ ์ ์์๋ณด์. ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ : ์ฌ์ฉ์๊ฐ ์ ํธํ ๋งํ ์์ดํ ์ ์ถ์ธกํจ์ผ๋ก์จ ์ฌ์ฉ์์๊ฒ ์ ํฉํ ํน์ ํญ๋ชฉ์ ์ถ์ฒํ๋ค. ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ์๋ ๋๊ฐ์ ๊ธฐ๋ณธ ์ถ์ด ์กด์ฌํ๋ค. ํ์ ํํฐ๋ง๊ณผ ์ฝํ ์ธ ํํฐ๋ง์ด๋ค. (1) ํ์ ํํฐ๋ง(CF, Collaborative Filtering) ์ ์ -์์ดํ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ค. "์ด ์์์ ์ข๊ฒ ํ๊ฐํ ์ฌ๋๋ค์ ๋ ์ด๋ค ์์์ ์ข์ํ ๊น?" ์ฆ, ํน์ ์ ์ ์ ์ฑํฅ์ด ๋น์ทํ ์ฌ๋๋ค์ด ์ข๊ฒ ํ๊ฐํ ๊ฒ์ ์ถ์ฒํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค. (2) ์ฝํ ์ธ ํํฐ๋ง(CB, Contents-Based-Filterin..
2022.05.23