분류 전체보기(145)
-
2024.07.23 생각 정리
보호되어 있는 글입니다.
2024.07.23 -
[강화학습] SARSA와 DQN 개념 정리
심층 강화학습의 주요 포인트를 확실하게 파악하고 넘어간다.그 후, SARSA와 DQN의 개념을 정리하고 둘의 차이점을 비교한다. * 본 포스팅은 책 'Foundations of Deep Reinforcement Learning: Theory and Practice in Python'을 참고하고 정리한 것임을 밝힙니다. 포스팅 내에 쓰인 수식과 알고리즘 그림은 책에서 가져온 것입니다. 1. Value-based Algorithm $V^{\pi}(s)$ or $Q^{\pi}(s, a)$ 이전 포스팅에서 다룬 Model-based 기반 REINFORCE 알고리즘은 agent가 직접 policy를 학습해 가는 방식이었다. 하지만 이번 Value-based 알고리즘은 state-action 쌍을 직접 평가하면..
2024.07.05 -
[Paper review] Towards maximizing expected possession outcome in soccer
이번 포스팅에서 리뷰할 논문은'Towards maximizing expected possession outcome in soccer(2023)' by Pegah Rahimian https://journals.sagepub.com/doi/10.1177/17479541231154494?icid=int.sj-full-text.similar-articles.4 딥러닝 신경망을 이용하여 팀의 대략적인 strategy를 파악하고, 거기 위에 강화학습을 하여 Optimal policy를 찾아내는 논문이다. 키워드는 RL과 축구가 되겠다.** 이 포스팅의 모든 figure과 표는 리뷰 논문에서 가져온 것임을 밝힌다. 1. Important QuestionHow to split the whole game into d..
2024.07.03 -
[강화학습] REINFORCE 알고리즘 : 코드 구현
이번 포스팅에선 REINFORCE 알고리즘을 Pytorch로 간단하게 구현을 해보고자 한다. 다른 RL Algorithms과는 달리 아주 간단하게 예제 표현이 가능하여 어렵지 않다.본 포스팅을 보기 전, REINFORCE 개념은 확실하게 인지하고 있어야 함을 알린다. Last posting내용: 강화학습 알고리즘인 REINFORCE의 개념과 수식에 대해 살펴보았다.요약: reward의 합인 목적함수를 최대화하는 최적의 policy 찾는 것이 목표인 알고리즘 https://mengu.tistory.com/136 [강화학습] REINFORCE 알고리즘 : 개념 및 수식강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대..
2024.06.02 -
[강화학습] REINFORCE 알고리즘 : 개념 및 수식
강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대해 다루겠다.파이팅! 본 포스팅은 책 Foundation of Deep Reinforcement Learning / laura.G에서 수식 및 내용을 참고하여 쓰인 글입니다. 1. REINFORCE 개념 1.1. Model-free vs Model-Based 강화학습은 크게 Model-free, Model-Based로 나뉜다. Model-Based 강화학습은 trajectory를 예측하는 모델을 기반으로 학습한다. 다양한 가짓수의 action에 대한 확률 높은 trajectory를 예측할 수 있는데, 이 경우 무작위로 sampling 된 trajectory를..
2024.05.27 -
[ML] 차원 축소 (1) - 정의, PCA, 예제코드
크게 유의미하지 않은 정보는 버리거나 뭉쳐라. 이번 블로그에선 차원 축소에 대해 다루고자 한다. 왜 차원을 축소해야 하고, 구체적으론 어떤 방법과 수학적 원리가 존재하는지 살펴보자. 1) 차원의 저주 여기 동물을 분류해야 하는 문제가 있다. 동물을 훈련 샘플이라 지칭하고, 동물들의 특성 500개가 주어졌다고 하겠다. 특성들을 바탕으로 토끼, 고양이, 거북이를 분류해야 한다. 특성이 많을수록 정확한 분류를 할 수 있을 것 같지만, 실상은 그렇지 않다. 기하급수적으로 늘어난 계산량으로 인해 모델 훈련이 느려지고, 좋은 솔루션을 찾기 힘들어진다. 또한 과대적합 문제가 발생할 수 있다. A, B 개체가 2개의 특성을 가졌을 때, 아래와 같이 그래프로 나타낼 수 있다. A와 B의 거리는 \[\sqrt{(5-2)^..
2024.02.26