분류 전체보기(146)
-
[Paper review] SAC: Soft Actor Critic
요즘 UNIST 인공지능 연구실에서 인턴을 하고 있다.목요일마다 세미나 발표를 하는데, SAC 논문을 읽고 리뷰를 했다.리뷰 내용을 블로그에 간략하게 정리한다. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actorhttps://arxiv.org/abs/1801.01290 Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic ActorModel-free deep reinforcement learning (RL) algorithms have been demonstrated on..
2025.04.18 -
[DL] Constrained Decoding
연구실의 석사분이 Constrained Decoding에 대하여 발표를 진행하셨다.내용을 기억하기 위해 본 포스팅으로 정리하고자 한다. Constrained Decoding: 자연엉 생성 작업에서 생성된 텍스트가 제약 조건을 만족하도록 보장하는 디코딩 방법 적용 사례- 포맷 강제 (예, 날짜 형식)- 단어 선택 제한- 구조적 제약- 논리적 제약 Constrained Decoding FlowStep 1. 입력 처리: 입력 문장과 조건을 논리적으로 표현Step 2. Decoder Initialization: 디코더 초기화Step 3. Constraint Tracker 생성(조건 추적하는 Tracker 설정)Step 4. 토큰 생성 반복(후보 토큰 정하고 Constraint Filtering > 스코어 ..
2024.12.03 -
[Probability] Random variable, Cumulative density function
인공지능을 위해 확률을 공부 중이다.오늘 포스팅은 확률 변수와 누적 확률 분포 함수이다. [목차]1. Random variable2. Binomial Distribution3. Gaussian Distribution4. CDF 1. Random variable확률변수는 확률공간의 결과를 숫자로 표현한 것이다.예를 들어, 동전 던지기에서 확률변수 X에는 0(위), 1(아래)가 있다.fX(x)는 x가 걸릴 확률을 의미한다. f 함수가 Proper하기 위해선,[1] 확률이 0보다 클 것[2] Discret, Continuos 공간에서 전체 합이 1이 될 것 2. Binomial Distribution이항분포는 n번 시행하고 성공한 횟수를 나타낸 확률분포이다. 예를 들어, 동전 던지기를 5번 수행..
2024.11.27 -
[Probability] Gamma Function과 이항정리/방데르몽 항등식
인공지능 공부를 위해 확률을 공부하는 중이다.이번 포스팅은 Gamma Function과 조합을 알아보겠다. [목차]1. Gamma Function 개념2. Gamma Function 성질3. 조합과 이항정리/ 반데르몽 항등식(Vandermonde Identity) 1. Gamma Function팩토리얼! 기억나는가? N! = N(N-1)(N-2)... 를 말한다.이 팩토리얼은 본래 정수에서만 정의되지만, 실수 및 복소수에서도 표현하고 계산할 수 있길 바랐다.복소수 범위에서도 팩토리얼을 나타낼 수 있게 일반화한 것이 Gamma Function이다. 2. Gamma Function 성질Gamma Function은 크게 3가지 성질을 기억하면 된다. 첫 번째, GF(a+1) = a*GF(a) ..
2024.11.26 -
[Probability] 확률 기초 개념과 성질
인공지능 공부를 위해 확률을 공부하는 중이다.이번 포스팅은 확률의 기초 개념과 그 성질을 알아보겠다. [목차]1. 기본 적분2. 확률 기본 개념3. 확률 기본 성질 및 증명 1. 기본 적분 앞으로 확률을 다룰 때, 적분을 해야 하는 상황이 많이 발생한다.그때를 위해, 위의 기본 적분들은 알아둬야 한다. 2. 확률 기본 개념 P라는 function에 event를 넣으면 [0, 1] 안에 속하는 수가 나온다. 그것이 바로 확률이다.확률은 Kolmogorov axioms 조건(3가지)을 따른다. [1] 확률은 0보다 크거나 같다.[2] 전체 outcome 집합인 subspace에 대한 확률은 1이다.[3] A와 B의 교집합이 공집합이라면, 가법성이 성립한다. 3. 확률 기본 성질 및 증명본래 ..
2024.11.25 -
[논문리뷰] Sample-Efficient Multi-agent RL with Reset Replay
다음 주, 연구실 논문 세미나에서 논문 리뷰 발표를 한다.논문 제목은 "Sample-Efficient Multi-agent Reinforcement learning with Reset Replay (Yaodong Yang, 2024, ICML)" 논문 키워드의 기본 개념들을 훑고, 세부적인 내용을 이해하는 방식으로 진행하고자 한다. Keyword: Multi-agent Reinforcement learning, Sample Efficient, Reset Replay, Buffer https://openreview.net/forum?id=w8ei1o9U5y&referrer=%5Bthe%20profile%20of%20Pheng-Ann%20Heng%5D(%2Fprofile%3Fid%3D~Pheng-Ann_..
2024.11.11