[강화학습] REINFORCE 알고리즘 : 개념 및 수식
강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대해 다루겠다.파이팅! 본 포스팅은 책 Foundation of Deep Reinforcement Learning / laura.G에서 수식 및 내용을 참고하여 쓰인 글입니다. 1. REINFORCE 개념 1.1. Model-free vs Model-Based 강화학습은 크게 Model-free, Model-Based로 나뉜다. Model-Based 강화학습은 trajectory를 예측하는 모델을 기반으로 학습한다. 다양한 가짓수의 action에 대한 확률 높은 trajectory를 예측할 수 있는데, 이 경우 무작위로 sampling 된 trajectory를..
2024.05.27