Latent Collaboration in Multi-Agent System
Introduction [ Problem Definition ] LLM 기반의 Multi-Agent System (MAS)에서, 서로 다른 agent 간의 소통의 매개체로 자연어가 사용됨 LLM의 연속적인 latent space를 언어 모델의 새로운 “model language”로써 탐구한 연구가 존재 latent reas...
Introduction [ Problem Definition ] LLM 기반의 Multi-Agent System (MAS)에서, 서로 다른 agent 간의 소통의 매개체로 자연어가 사용됨 LLM의 연속적인 latent space를 언어 모델의 새로운 “model language”로써 탐구한 연구가 존재 latent reas...
[ 개요 ] 의의: 사전 학습된 언어 모델들에 post training을 할 때, 데이터의 크기와 분포에 따라 tuning의 목적을 잘 따르지 않는 경향(misalignment)을 확인 모델의 성능과 동치인 데이터 압축률(compression rate)을 통해 수식적으로 설명 벤치마크 데이터셋들을 ...
Introduction [ Problem Definition ] 모델의 zero-shot 성능에 비해 In-Context Learning (ICL)을 적용하면 더 나은 성능을 보임 내부 메커니즘에 대한 이해는 부족한 상태 [ Preliminaries ] ICL의 메커니즘에 대한 두 가지 메인 아이디어 Meta-Learning ...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction 지난 강의에서, Planning by DP MDP를 아는 상황을 가정함 즉, envi...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Introduction [ Dynamic Programming이란? ] 복잡한 문제를 단순한 subproblem으로 쪼개어 해결하는 방법...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) Markov Processes Introduction Markov decision processes는 강화학습에서 environme...
이 포스팅은 David Silver의 RL 강좌를 기반으로 작성되었습니다. 강의 링크, 강의 자료 링크 이미지 출처: David Silver, RL Course (CC-BY-NC 4.0) About Reinforcement Learning RL의 특성 no supervisor, only a reward signal: ...
citation Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” Proceedings of the 2019 conference of the North American chapter of the associatio...
도입 저번 포스트에 이어서 self-attention을 도입하여 attention만으로 자연어 처리 태스크를 수행할 수 있는 transformer에 대해서 알아보자. Attention is All You Need의 내용을 베이스로 하여 작성하였다. Architecture Seq2Seq w. Attention과 가장 큰 차이점은 RNN 모듈을 사용...
도입 자연어 처리의 기본이 되는 attention 개념과 transformer를 알아보기 위해 RNN부터 Seq2Seq 등 배경부터 알아보겠다. Recurrent Neural Network (RNN) 기본 RNN 구조 Transformer 등장 이후 sequential한 데이터를 처리하는 방식은 주로 RNN 기반의 모델들 recurrent...