reinforce(2)
-
[강화학습] REINFORCE 알고리즘 : 코드 구현
이번 포스팅에선 REINFORCE 알고리즘을 Pytorch로 간단하게 구현을 해보고자 한다. 다른 RL Algorithms과는 달리 아주 간단하게 예제 표현이 가능하여 어렵지 않다.본 포스팅을 보기 전, REINFORCE 개념은 확실하게 인지하고 있어야 함을 알린다. Last posting내용: 강화학습 알고리즘인 REINFORCE의 개념과 수식에 대해 살펴보았다.요약: reward의 합인 목적함수를 최대화하는 최적의 policy 찾는 것이 목표인 알고리즘 https://mengu.tistory.com/136 [강화학습] REINFORCE 알고리즘 : 개념 및 수식강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대..
2024.06.02 -
[강화학습] REINFORCE 알고리즘 : 개념 및 수식
강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대해 다루겠다.파이팅! 본 포스팅은 책 Foundation of Deep Reinforcement Learning / laura.G에서 수식 및 내용을 참고하여 쓰인 글입니다. 1. REINFORCE 개념 1.1. Model-free vs Model-Based 강화학습은 크게 Model-free, Model-Based로 나뉜다. Model-Based 강화학습은 trajectory를 예측하는 모델을 기반으로 학습한다. 다양한 가짓수의 action에 대한 확률 높은 trajectory를 예측할 수 있는데, 이 경우 무작위로 sampling 된 trajectory를..
2024.05.27