강화학습(5)
-
[논문리뷰] Sample-Efficient Multi-agent RL with Reset Replay
다음 주, 연구실 논문 세미나에서 논문 리뷰 발표를 한다.논문 제목은 "Sample-Efficient Multi-agent Reinforcement learning with Reset Replay (Yaodong Yang, 2024, ICML)" 논문 키워드의 기본 개념들을 훑고, 세부적인 내용을 이해하는 방식으로 진행하고자 한다. Keyword: Multi-agent Reinforcement learning, Sample Efficient, Reset Replay, Buffer https://openreview.net/forum?id=w8ei1o9U5y&referrer=%5Bthe%20profile%20of%20Pheng-Ann%20Heng%5D(%2Fprofile%3Fid%3D~Pheng-Ann_..
2024.11.11 -
[강화학습] SARSA와 DQN 개념 정리
심층 강화학습의 주요 포인트를 확실하게 파악하고 넘어간다.그 후, SARSA와 DQN의 개념을 정리하고 둘의 차이점을 비교한다. * 본 포스팅은 책 'Foundations of Deep Reinforcement Learning: Theory and Practice in Python'을 참고하고 정리한 것임을 밝힙니다. 포스팅 내에 쓰인 수식과 알고리즘 그림은 책에서 가져온 것입니다. 1. Value-based Algorithm $V^{\pi}(s)$ or $Q^{\pi}(s, a)$ 이전 포스팅에서 다룬 Model-based 기반 REINFORCE 알고리즘은 agent가 직접 policy를 학습해 가는 방식이었다. 하지만 이번 Value-based 알고리즘은 state-action 쌍을 직접 평가하면..
2024.07.05 -
[Paper review] Towards maximizing expected possession outcome in soccer
이번 포스팅에서 리뷰할 논문은'Towards maximizing expected possession outcome in soccer(2023)' by Pegah Rahimian https://journals.sagepub.com/doi/10.1177/17479541231154494?icid=int.sj-full-text.similar-articles.4 딥러닝 신경망을 이용하여 팀의 대략적인 strategy를 파악하고, 거기 위에 강화학습을 하여 Optimal policy를 찾아내는 논문이다. 키워드는 RL과 축구가 되겠다.** 이 포스팅의 모든 figure과 표는 리뷰 논문에서 가져온 것임을 밝힌다. 1. Important QuestionHow to split the whole game into d..
2024.07.03 -
[강화학습] REINFORCE 알고리즘 : 코드 구현
이번 포스팅에선 REINFORCE 알고리즘을 Pytorch로 간단하게 구현을 해보고자 한다. 다른 RL Algorithms과는 달리 아주 간단하게 예제 표현이 가능하여 어렵지 않다.본 포스팅을 보기 전, REINFORCE 개념은 확실하게 인지하고 있어야 함을 알린다. Last posting내용: 강화학습 알고리즘인 REINFORCE의 개념과 수식에 대해 살펴보았다.요약: reward의 합인 목적함수를 최대화하는 최적의 policy 찾는 것이 목표인 알고리즘 https://mengu.tistory.com/136 [강화학습] REINFORCE 알고리즘 : 개념 및 수식강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대..
2024.06.02 -
[강화학습] REINFORCE 알고리즘 : 개념 및 수식
강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대해 다루겠다.파이팅! 본 포스팅은 책 Foundation of Deep Reinforcement Learning / laura.G에서 수식 및 내용을 참고하여 쓰인 글입니다. 1. REINFORCE 개념 1.1. Model-free vs Model-Based 강화학습은 크게 Model-free, Model-Based로 나뉜다. Model-Based 강화학습은 trajectory를 예측하는 모델을 기반으로 학습한다. 다양한 가짓수의 action에 대한 확률 높은 trajectory를 예측할 수 있는데, 이 경우 무작위로 sampling 된 trajectory를..
2024.05.27