Latent Collaboration in Multi-Agent System

Introduction [ Problem Definition ] LLM 기반의 Multi-Agent System (MAS)에서, 서로 다른 agent 간의 소통의 매개체로 자연어가 사용됨 LLM의 연속적인 latent space를 언어 모델의 새로운 “model language”로써 탐구한 연구가 존재 latent reas...

Dec 9, 2025 Papers

Language Models Resist Alignment, Evidence from Data Compression

[ 개요 ] 의의: 사전 학습된 언어 모델들에 post training을 할 때, 데이터의 크기와 분포에 따라 tuning의 목적을 잘 따르지 않는 경향(misalignment)을 확인 모델의 성능과 동치인 데이터 압축률(compression rate)을 통해 수식적으로 설명 벤치마크 데이터셋들을 ...

Dec 2, 2025 Papers

Learning vs. Retrieval, The Role of In-Context Examples in Regression with Large Language Models

Introduction [ Problem Definition ] 모델의 zero-shot 성능에 비해 In-Context Learning (ICL)을 적용하면 더 나은 성능을 보임 내부 메커니즘에 대한 이해는 부족한 상태 [ Preliminaries ] ICL의 메커니즘에 대한 두 가지 메인 아이디어 Meta-Learning ...

Nov 28, 2025 Papers

Lecture 4. Model-Free Prediction

이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction 지난 강의에서, Planning by DP MDP를 아는 상황을 가정함 즉, envi...

Sep 17, 2025 RL, David Silver

Lecture 3. Planning by Dynamic Programming

이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction [ Dynamic Programming이란? ] 복잡한 문제를 단순한 subproblem으로 쪼개어 해결하는 방법...

Sep 7, 2025 RL, David Silver

Lecture 2. Markov Decision Process

이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Markov Processes Introduction Markov decision processes는 강화학습에서 environme...

Sep 5, 2025 RL, David Silver

Lecture 1. Introduction to Reinforcement Learning

이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) About Reinforcement Learning RL의 특성 no supervisor, only a reward signal: ...

Sep 4, 2025 RL, David Silver

BERT

citation Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” Proceedings of the 2019 conference of the North American chapter of the associatio...

Apr 2, 2025 NLP, Basics

Transformer 2: Attention is All You Need

도입 저번 포스트에 이어서 self-attention을 도입하여 attention만으로 자연어 처리 태스크를 수행할 수 있는 transformer에 대해서 알아보자. Attention is All You Need의 내용을 베이스로 하여 작성하였다. Architecture Seq2Seq w. Attention과 가장 큰 차이점은 RNN 모듈을 사용...

Mar 19, 2025 NLP, Basics

Transformer 1: from RNN to Seq2Seq w. Attention

도입 자연어 처리의 기본이 되는 attention 개념과 transformer를 알아보기 위해 RNN부터 Seq2Seq 등 배경부터 알아보겠다. Recurrent Neural Network (RNN) 기본 RNN 구조 Transformer 등장 이후 sequential한 데이터를 처리하는 방식은 주로 RNN 기반의 모델들 recurrent...