Week 8 - MRC 개요
분명 며칠 전에 STS 프로젝트가 끝났는데.. 다시 또 시작이다. 이번에 MRC. 아자아ㅈ..🫠 MRC란? MRC는 Machine Reading Comprehension이라고 하는 기계 독해 task이다. 사람이 document을 읽고 이해하는 것처럼 AI와 같은 기계가 document를 읽고 문맥을 이해하는 task를 말한다. 이때 기계가 잘 이해...
분명 며칠 전에 STS 프로젝트가 끝났는데.. 다시 또 시작이다. 이번에 MRC. 아자아ㅈ..🫠 MRC란? MRC는 Machine Reading Comprehension이라고 하는 기계 독해 task이다. 사람이 document을 읽고 이해하는 것처럼 AI와 같은 기계가 document를 읽고 문맥을 이해하는 task를 말한다. 이때 기계가 잘 이해...
LoRA란? Low-Rank Adaptaion으로, PEFT 기법의 일종이다. downstream task 수행을 위해 모델 전체를 tuning하는 것이 아닌, 대부분의 파라미터를 freeze하고 일부 파라미터만 tuning하는 것이다. Hugging Face는 peft라는 라이브러리를 통해 다양한 PEFT 기법을 적용할 수 있게 했는데, 그 중 Lo...
PEFT 등장 배경 LLM은 그 크기가 커질 수록 정확도가 높아진다는 연구 결과가 발표된 후 pre-trained 모델의 크기를 점점 키우는 것이 유행(?)이 되었다. 하지만 이를 downstream task에 적용하기 위해서는 fine-tuning을 해야 하는데 많은 경우 가용한 자원은 제한적이기 때문에 모든 가중치를 전부 tuning하는 것은 불가...
SBERT란? SBERT란 Sentence BERT의 줄임말로, 기본적으로 BERT의 문장 임베딩 성능을 우수하게 개선한 모델이다. BERT의 문장 임베딩 방식은 총 세 가지가 있다. [CLS] token의 출력 벡터를 문장 벡터로 간주한다. 입력 token의 모든 단어의 출력 벡터에 대해 Average Pooling을 수행한 벡터를 문장 벡...
STS란? STS란 Semantic Textual Similarity의 이니셜을 딴 이름으로, 두 문장이 주어졌을 때 의미가 얼마나 유사한지를 파악하는 task이다. label은 0-5점의 값을 가지며, 2.5점을 기준으로 0-2.4까지는 False, 2.5-5.0까지는 True값을 가진다. 해당 task는 검색 엔진 사용 시 유사한 내용을 함께 검색...
처음으로 github.io에 주간 학습 정리를 올린다. 회고록도 잘 작성해야 하는데 프로젝트가 시작되고 정신이 하나도 없어서 이번 주는 반성해야겠다…. NLP 문제 종류 NLP 문제는 출력 형태에 따라 N21, N2N, N2M의 총 세 가지 종류로 구분할 수 있다. N21 문제 감정 분석, 토픽 분석, 함의, 등 classification에 속하...
한국어는 어미와 조사를 포함한 접사가 결합된 형태로 문법적 기능을 수행한다. 따라서 subword tokenization을 수행할 때 형태소 분석만을 수행하기 보다 추가로 BPE 알고리즘을 적용하는 등 한국어에 특화된 적절한 전처리 과정이 필요하다. 또한 인터넷의 발전으로 크롤링을 통해 데이터를 수집하는 경우, ‘ㅋㅋㅋ’, ‘아앗..’과 같이 문법적으...
Chirpy 선택 이유 많은 사람들이 사용하는 거라 레퍼런스가 많을 것이라고 생각했는데 개뿔 루비 3.3 버전을 쓰면서 이런 저런 오류가 발생했기 때문에 직접 글을 쓴다. chirpy starter는 절대 권장하지 않는다. 세부 세팅을 변경하기가 너무 번거로움! Github Fork 방식도 나는 별로다.. 에러가 발생해서 검색해보니 이슈에도 떠있었고,...
1. H line # H1 line ## H2 line ### H3 line H1 line H2 line H3 line 장점은 제목에도 볼드체 적용이 된다는 것. 2. 코드 작성 코드 블럭 print("Hello World!") 인라인 코드 import numpy as np 3. 링크 삽입 [링크 설명](링크) 누르면 네이버로 가요...
블로그를 이전한 거라서 이전 내용은 벨로그에 있습니다~ 여기!