Lecture 2. Markov Decision Process
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Markov Processes Introduction Markov decision processes는 강화학습에서 environme...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Markov Processes Introduction Markov decision processes는 강화학습에서 environme...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) About Reinforcement Learning RL의 특성 no supervisor, only a reward signal: ...
citation Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” Proceedings of the 2019 conference of the North American chapter of the associatio...
도입 저번 포스트에 이어서 self-attention을 도입하여 attention만으로 자연어 처리 태스크를 수행할 수 있는 transformer에 대해서 알아보자. Attention is All You Need의 내용을 베이스로 하여 작성하였다. Architecture Seq2Seq w. Attention과 가장 큰 차이점은 RNN 모듈을 사용...
도입 자연어 처리의 기본이 되는 attention 개념과 transformer를 알아보기 위해 RNN부터 Seq2Seq 등 배경부터 알아보겠다. Recurrent Neural Network (RNN) 기본 RNN 구조 Transformer 등장 이후 sequential한 데이터를 처리하는 방식은 주로 RNN 기반의 모델들 recurrent...
Citation & Link Guo, Daya, et al. “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning.” arXiv preprint arXiv:2501.12948 (2025). PDF Link 늦은 감이 있지만 그래도 정리를 안 할 ...
일기? 도대체 난 왜 회고록만 쓰면 일기가 되는가!? 최대한 고민한 점, 느낀점을 담으려고 노력은 했다.. 1-2월 종합 설계 2 스터디 졸업 프로젝트 과목으로, 총 1년 짜리이다. 1, 2 중 하나만 듣고 인턴으로 빠지는 학생들도 있는데, 나는 기왕 시작한 기업 연계 프로젝트인 거 끝을 한 번 보고 싶어서 끝까지 남는 것을 선택했다. 인턴을 선택...
Greedy Algorithm 매 순간 최고의 선택지를 따라가는 알고리즘 최적의 해를 보장하지 않음 따라서 코딩 테스트의 경우, 탐욕법으로 도달한 해가 최적의 해가 되는 문제를 출제 백준 문제 풀기 난이도별로 구성 10610번 30 Link https://www.acmicpc.net/problem/10610 Problem ...
Prodect Serving 개요 Serving이란? 수행할 작업에 적한 연구 과정이 끝난 후 이를 실제 생활에서 사용할 수 있도록 배포하는 것을 말한다. 모델의 서비스화라고 이해하면 쉽다. 예시 유튜브 알고리즘 DeepL 번역기 Serving의 종류 Batch Serving 데이터를 일정 묶음 단위로 서빙(정기 배송처럼 생각하기)...
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Citation & Link Raffel, Colin, et al. “Exploring the limits of transfer learning with a unified text-to-text...