[LLM의 RL] 2. 강화학습 알고리즘의 종류
[LLM의 RL] 이전 포스팅 1. 강화학습의 기본 개념과 이어집니다. 강화학습의 알고리즘은 가치 함수나 정책을 어떻게 학습하는지에 따라 달라진다. Value-based: 각 상태(or 상태-행동)의 가치 함수를 학습하고, 이 값을 기반으로 최적 행동을 선택한다. Policy-based: 가치 함수 없이 정책 자체를 직접 최적화한다. ...
[LLM의 RL] 이전 포스팅 1. 강화학습의 기본 개념과 이어집니다. 강화학습의 알고리즘은 가치 함수나 정책을 어떻게 학습하는지에 따라 달라진다. Value-based: 각 상태(or 상태-행동)의 가치 함수를 학습하고, 이 값을 기반으로 최적 행동을 선택한다. Policy-based: 가치 함수 없이 정책 자체를 직접 최적화한다. ...
이 포스팅은 Harvard에서 진행된 Joe Blitzstein의 Statics 110 강좌를 기반으로 작성되었습니다. 강의 및 자료 링크 (continue) 균등분포의 보편성 [\begin{align} U \sim Unif(0, 1) \Rightarrow X = F^{-1}(U) \sim F X \sim F \Rightarr...
이 포스팅은 Harvard에서 진행된 Joe Blitzstein의 Statics 110 강좌를 기반으로 작성되었습니다. 강의 및 자료 링크 Discrete vs. Continuous Discrete (이산확률변수) Continuous (연속확률변수) P...
David Silver의 RL 강의를 듣다가 정리를 안 해버렸다.. 기본적인 정보들은 어느정도 습득했으니 LLM의 RL로 넘어가볼까 한다. 기본 개념, RL 알고리즘 종류, LLM의 RL, 코드 예제 순서대로 포스팅 할 계획인데, 진행하면서 부족한 부분들을 보완하도록 하겠다. 1. 강화학습이란? Definition Reinforcement Le...
이 포스팅은 Harvard에서 진행된 Joe Blitzstein의 Statics 110 강좌를 기반으로 작성되었습니다. 강의 및 자료 링크 Sympathetic Magic 확률 변수와 분포를 헷갈리지 말 것 즉, 변수의 합 $X+Y$와 각각의 확률질량함수의 합 $P(X=x) + P(Y=y)$은 같지 않다. 확률변수는 어떠한 집이...
1. Continue: 테이블 생성 지난번에 User 테이블만 만들어놨기 때문에 나머지 테이블을 완성해보자. Travel, Itinerary, ChatMessages 테이블을 만들 건데, 각각 relationship이 있기 때문에 유의해서 만들어야 한다. Travel 먼저 User 테이블과 일대다 관계인 Travel 테이블부터 만들어보자. #...
이 포스팅은 Harvard에서 진행된 Joe Blitzstein의 Statics 110 강좌를 기반으로 작성되었습니다. 강의 및 자료 링크 Linearity 증명 Let $T = X + Y$, show $E(T) = E(X) + E(Y)$ 평균을 구하는 두 가지 방법: (1) 전부 더해서 나누는 방법 (2) 그룹으로 묶어 가중...
이 포스팅은 Harvard에서 진행된 Joe Blitzstein의 Statics 110 강좌를 기반으로 작성되었습니다. 강의 및 자료 링크 CDF (누적분포함수) [F(X) = P(X \leqslant x) \text{, as a function of real } x] $x=0$일 때 점의 위치가 $P(x=0)$ ...
citation Yu, Yi, et al. “Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents.” arXiv preprint arXiv:2601.01885 (2026). (Alibaba와 Yuhan Uinive...
1. ERD 설계 초기 설정이므로 간단하게만 구상해보도록 하자. users: 회원가입, 로그인, 마이페이지 등에 사용할 테이블 travels: 사용자의 여행과 해당 여행의 취향을 저장하는 테이블 itineraries: 해당 여행의 일정들을 저장하는 테이블 erd diagram에는 dbdiagram.io을 활용했고, 코드는 아래...