인기 글
-
[자료구조] 원형 큐(Circular Queue) 개념 및 코드
이번 포스팅에선 큐의 변형인 원형 큐(Circular Queue)에 대해 알아보겠습니다. 큐에 대한 사전 지식이 없다면 이해가 어려울 수 있으니, 미리 개념을 습득하고 오시길 바랍니다. [큐(Queue) 개념 이해하기] https://mengu.tistory.com/30?category=931463 [자료구조] 큐(Queue) 개념 및 코드 구현 이번 포스팅에선 큐(Queue)의 개념과 코드 구현을 할 것이다. 만약 스택(Stack) 개념을 알지 못한다면 이전 포스팅을 보고 오자. [이전 포스팅 URL: https://mengu.tistory.com/29] [자료구조] 스택(Stack) 개념.. mengu.tistory.com 목차 📃 원형 큐(Circular Queue) 정의 및 원리 📃 원형 큐 구현..
2022.07.14 12:20 -
[선형대수학] 행렬 벡터의 곱
행렬과 벡터를 곱하면 어떻게 될까요? 오늘은 행렬 벡터의 곱에 대해 다뤄보도록 하겠습니다. 📌 행렬 A와 벡터 x의 곱셈 행렬과 벡터는 서로 곱할 수 있습니다. 하지만 어떻게 곱해지는지 잘 살펴야 제대로 활용할 수 있습니다. 결론부터 말하자면, 행렬 A(m*n)와 벡터 x(n*1)을 곱하면 벡터 b(m*1)이 나옵니다. 벡터 b의 첫 번째 열인 b1은 (a11*x1 + a12*x2 +.... + a1m*xn)과 같습니다. 밑의 예시를 보면 더 확실하게 이해할 수 있습니다. 즉, 행렬과 벡터의 곱은 행렬의 각 열과 벡터 내적의 집합니다. 이해가 안 갈 것을 예상했으므로, 좀 더 쉬운 관점을 보여주겠습니다. 📌 첫 번째 관점 : 행 벡터와 벡터 x의 내적 행렬 A를 두 개의 행벡터 a1과 a2가 있는 행렬이..
2022.06.18 12:41 -
[강화학습] REINFORCE 알고리즘 : 코드 구현
이번 포스팅에선 REINFORCE 알고리즘을 Pytorch로 간단하게 구현을 해보고자 한다. 다른 RL Algorithms과는 달리 아주 간단하게 예제 표현이 가능하여 어렵지 않다.본 포스팅을 보기 전, REINFORCE 개념은 확실하게 인지하고 있어야 함을 알린다. Last posting내용: 강화학습 알고리즘인 REINFORCE의 개념과 수식에 대해 살펴보았다.요약: reward의 합인 목적함수를 최대화하는 최적의 policy 찾는 것이 목표인 알고리즘 https://mengu.tistory.com/136 [강화학습] REINFORCE 알고리즘 : 개념 및 수식강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대..
2024.06.02 11:55 -
[강화학습] REINFORCE 알고리즘 : 개념 및 수식
강화학습에 대해 공부하고 있어, 여러 알고리즘의 수식과 코드를 정리하고자 한다.이 포스팅은 첫 발걸음이며, REINFORCE 알고리즘에 대해 다루겠다.파이팅! 본 포스팅은 책 Foundation of Deep Reinforcement Learning / laura.G에서 수식 및 내용을 참고하여 쓰인 글입니다. 1. REINFORCE 개념 1.1. Model-free vs Model-Based 강화학습은 크게 Model-free, Model-Based로 나뉜다. Model-Based 강화학습은 trajectory를 예측하는 모델을 기반으로 학습한다. 다양한 가짓수의 action에 대한 확률 높은 trajectory를 예측할 수 있는데, 이 경우 무작위로 sampling 된 trajectory를..
2024.05.27 22:52 -
[선형대수학] 평면 방정식의 법선벡터
오늘은 평면 방정식의 법선벡터를 손쉽게 가져오는 방법이다. 공식을 먼저 유도해보자. 1. 그림 그리기 전체적인 상황은 다음과 같다. 벡터를 조금 공부했다면 충분히 그림을 이해할 수 있을 것이다. 2. 공식 유도 서로 직각인 벡터를 내적 하면 결과는 0이다. 법선벡터와 평면 위의 벡터를 곱한다면 그 결과도 0일 것이다. 3. 평면 방정식과 대조 아니..! 이럴 수가. 공교롭게도 두 식이 알맞게 맞춰진다. 그렇다. 그렇게 된 것이다. 4. 법선벡터 공식 유도 평면 방정식만 안다면 법선벡터 구하는 것은 일도 아님을, 깨달았길 바란다. 5. 연습문제 잠시 기다려라. 공부했다면 문제 정돈 풀고 복습하여라.
2022.04.14 13:10
최신 글
-
[DL] Constrained Decoding
연구실의 석사분이 Constrained Decoding에 대하여 발표를 진행하셨다.내용을 기억하기 위해 본 포스팅으로 정리하고자 한다. Constrained Decoding: 자연엉 생성 작업에서 생성된 텍스트가 제약 조건을 만족하도록 보장하는 디코딩 방법 적용 사례- 포맷 강제 (예, 날짜 형식)- 단어 선택 제한- 구조적 제약- 논리적 제약 Constrained Decoding FlowStep 1. 입력 처리: 입력 문장과 조건을 논리적으로 표현Step 2. Decoder Initialization: 디코더 초기화Step 3. Constraint Tracker 생성(조건 추적하는 Tracker 설정)Step 4. 토큰 생성 반복(후보 토큰 정하고 Constraint Filtering > 스코어 ..
2024.12.03 13:38 -
[Probability] Random variable, Cumulative density function
인공지능을 위해 확률을 공부 중이다.오늘 포스팅은 확률 변수와 누적 확률 분포 함수이다. [목차]1. Random variable2. Binomial Distribution3. Gaussian Distribution4. CDF 1. Random variable확률변수는 확률공간의 결과를 숫자로 표현한 것이다.예를 들어, 동전 던지기에서 확률변수 X에는 0(위), 1(아래)가 있다.fX(x)는 x가 걸릴 확률을 의미한다. f 함수가 Proper하기 위해선,[1] 확률이 0보다 클 것[2] Discret, Continuos 공간에서 전체 합이 1이 될 것 2. Binomial Distribution이항분포는 n번 시행하고 성공한 횟수를 나타낸 확률분포이다. 예를 들어, 동전 던지기를 5번 수행..
2024.11.27 01:39 -
[Probability] Gamma Function과 이항정리/방데르몽 항등식
인공지능 공부를 위해 확률을 공부하는 중이다.이번 포스팅은 Gamma Function과 조합을 알아보겠다. [목차]1. Gamma Function 개념2. Gamma Function 성질3. 조합과 이항정리/ 반데르몽 항등식(Vandermonde Identity) 1. Gamma Function팩토리얼! 기억나는가? N! = N(N-1)(N-2)... 를 말한다.이 팩토리얼은 본래 정수에서만 정의되지만, 실수 및 복소수에서도 표현하고 계산할 수 있길 바랐다.복소수 범위에서도 팩토리얼을 나타낼 수 있게 일반화한 것이 Gamma Function이다. 2. Gamma Function 성질Gamma Function은 크게 3가지 성질을 기억하면 된다. 첫 번째, GF(a+1) = a*GF(a) ..
2024.11.26 01:23 -
[Probability] 확률 기초 개념과 성질
인공지능 공부를 위해 확률을 공부하는 중이다.이번 포스팅은 확률의 기초 개념과 그 성질을 알아보겠다. [목차]1. 기본 적분2. 확률 기본 개념3. 확률 기본 성질 및 증명 1. 기본 적분 앞으로 확률을 다룰 때, 적분을 해야 하는 상황이 많이 발생한다.그때를 위해, 위의 기본 적분들은 알아둬야 한다. 2. 확률 기본 개념 P라는 function에 event를 넣으면 [0, 1] 안에 속하는 수가 나온다. 그것이 바로 확률이다.확률은 Kolmogorov axioms 조건(3가지)을 따른다. [1] 확률은 0보다 크거나 같다.[2] 전체 outcome 집합인 subspace에 대한 확률은 1이다.[3] A와 B의 교집합이 공집합이라면, 가법성이 성립한다. 3. 확률 기본 성질 및 증명본래 ..
2024.11.25 00:06 -
[논문리뷰] Sample-Efficient Multi-agent RL with Reset Replay
다음 주, 연구실 논문 세미나에서 논문 리뷰 발표를 한다.논문 제목은 "Sample-Efficient Multi-agent Reinforcement learning with Reset Replay (Yaodong Yang, 2024, ICML)" 논문 키워드의 기본 개념들을 훑고, 세부적인 내용을 이해하는 방식으로 진행하고자 한다. Keyword: Multi-agent Reinforcement learning, Sample Efficient, Reset Replay, Buffer https://openreview.net/forum?id=w8ei1o9U5y&referrer=%5Bthe%20profile%20of%20Pheng-Ann%20Heng%5D(%2Fprofile%3Fid%3D~Pheng-Ann_..
2024.11.11 10:41 -
[Paper review] TabNet: Attentive Interpretable Tabular Learning 및 TabNet 실습
연구실 논문 세미나에서 들은 내용을 정리하고자 한다.논문 제목은 ' TabNet: Attentive Interpretable Tabular Learning'이다. Paper link:https://ojs.aaai.org/index.php/AAAI/article/view/16826 TabNet: Attentive Interpretable Tabular Learning | Proceedings of the AAAI Conference on Artificial Intelligence ojs.aaai.org 논문 간단 설명Tabular 데이터에서 주로 결정 트리(Decision Tree) 기반 모델들이 많이 사용된다. 하지만 트리 기반 모델은 표현력의 한계가 있으며, 딥러닝이 다양한 데이터 유형을 처리하는 ..
2024.09.13 15:30 -
[강화학습] SARSA와 DQN 개념 정리
심층 강화학습의 주요 포인트를 확실하게 파악하고 넘어간다.그 후, SARSA와 DQN의 개념을 정리하고 둘의 차이점을 비교한다. * 본 포스팅은 책 'Foundations of Deep Reinforcement Learning: Theory and Practice in Python'을 참고하고 정리한 것임을 밝힙니다. 포스팅 내에 쓰인 수식과 알고리즘 그림은 책에서 가져온 것입니다. 1. Value-based Algorithm $V^{\pi}(s)$ or $Q^{\pi}(s, a)$ 이전 포스팅에서 다룬 Model-based 기반 REINFORCE 알고리즘은 agent가 직접 policy를 학습해 가는 방식이었다. 하지만 이번 Value-based 알고리즘은 state-action 쌍을 직접 평가하면..
2024.07.05 02:11 -
[Paper review] Towards maximizing expected possession outcome in soccer
이번 포스팅에서 리뷰할 논문은'Towards maximizing expected possession outcome in soccer(2023)' by Pegah Rahimian https://journals.sagepub.com/doi/10.1177/17479541231154494?icid=int.sj-full-text.similar-articles.4 딥러닝 신경망을 이용하여 팀의 대략적인 strategy를 파악하고, 거기 위에 강화학습을 하여 Optimal policy를 찾아내는 논문이다. 키워드는 RL과 축구가 되겠다.** 이 포스팅의 모든 figure과 표는 리뷰 논문에서 가져온 것임을 밝힌다. 1. Important QuestionHow to split the whole game into d..
2024.07.03 17:51