Lecture 4. Model-Free Prediction
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction 지난 강의에서, Planning by DP MDP를 아는 상황을 가정함 즉, envi...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction 지난 강의에서, Planning by DP MDP를 아는 상황을 가정함 즉, envi...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction [ Dynamic Programming이란? ] 복잡한 문제를 단순한 subproblem으로 쪼개어 해결하는 방법...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Markov Processes Introduction Markov decision processes는 강화학습에서 environme...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) About Reinforcement Learning RL의 특성 no supervisor, only a reward signal: ...
citation Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” Proceedings of the 2019 conference of the North American chapter of the associatio...
도입 저번 포스트에 이어서 self-attention을 도입하여 attention만으로 자연어 처리 태스크를 수행할 수 있는 transformer에 대해서 알아보자. Attention is All You Need의 내용을 베이스로 하여 작성하였다. Architecture Seq2Seq w. Attention과 가장 큰 차이점은 RNN 모듈을 사용...
도입 자연어 처리의 기본이 되는 attention 개념과 transformer를 알아보기 위해 RNN부터 Seq2Seq 등 배경부터 알아보겠다. Recurrent Neural Network (RNN) 기본 RNN 구조 Transformer 등장 이후 sequential한 데이터를 처리하는 방식은 주로 RNN 기반의 모델들 recurrent...
Citation & Link Guo, Daya, et al. “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning.” arXiv preprint arXiv:2501.12948 (2025). PDF Link 늦은 감이 있지만 그래도 정리를 안 할 ...
일기? 도대체 난 왜 회고록만 쓰면 일기가 되는가!? 최대한 고민한 점, 느낀점을 담으려고 노력은 했다.. 1-2월 종합 설계 2 스터디 졸업 프로젝트 과목으로, 총 1년 짜리이다. 1, 2 중 하나만 듣고 인턴으로 빠지는 학생들도 있는데, 나는 기왕 시작한 기업 연계 프로젝트인 거 끝을 한 번 보고 싶어서 끝까지 남는 것을 선택했다. 인턴을 선택...
Greedy Algorithm 매 순간 최고의 선택지를 따라가는 알고리즘 최적의 해를 보장하지 않음 따라서 코딩 테스트의 경우, 탐욕법으로 도달한 해가 최적의 해가 되는 문제를 출제 백준 문제 풀기 난이도별로 구성 10610번 30 Link https://www.acmicpc.net/problem/10610 Problem ...