KR-SBERT 모델
SBERT란? SBERT란 Sentence BERT의 줄임말로, 기본적으로 BERT의 문장 임베딩 성능을 우수하게 개선한 모델이다. BERT의 문장 임베딩 방식은 총 세 가지가 있다. [CLS] token의 출력 벡터를 문장 벡터로 간주한다. 입력 token의 모든 단어의 출력 벡터에 대해 Average Pooling을 수행한 벡터를 문장 벡...
SBERT란? SBERT란 Sentence BERT의 줄임말로, 기본적으로 BERT의 문장 임베딩 성능을 우수하게 개선한 모델이다. BERT의 문장 임베딩 방식은 총 세 가지가 있다. [CLS] token의 출력 벡터를 문장 벡터로 간주한다. 입력 token의 모든 단어의 출력 벡터에 대해 Average Pooling을 수행한 벡터를 문장 벡...
STS란? STS란 Semantic Textual Similarity의 이니셜을 딴 이름으로, 두 문장이 주어졌을 때 의미가 얼마나 유사한지를 파악하는 task이다. label은 0-5점의 값을 가지며, 2.5점을 기준으로 0-2.4까지는 False, 2.5-5.0까지는 True값을 가진다. 해당 task는 검색 엔진 사용 시 유사한 내용을 함께 검색...
처음으로 github.io에 주간 학습 정리를 올린다. 회고록도 잘 작성해야 하는데 프로젝트가 시작되고 정신이 하나도 없어서 이번 주는 반성해야겠다…. NLP 문제 종류 NLP 문제는 출력 형태에 따라 N21, N2N, N2M의 총 세 가지 종류로 구분할 수 있다. N21 문제 감정 분석, 토픽 분석, 함의, 등 classification에 속하...
한국어는 어미와 조사를 포함한 접사가 결합된 형태로 문법적 기능을 수행한다. 따라서 subword tokenization을 수행할 때 형태소 분석만을 수행하기 보다 추가로 BPE 알고리즘을 적용하는 등 한국어에 특화된 적절한 전처리 과정이 필요하다. 또한 인터넷의 발전으로 크롤링을 통해 데이터를 수집하는 경우, ‘ㅋㅋㅋ’, ‘아앗..’과 같이 문법적으...
Chirpy 선택 이유 많은 사람들이 사용하는 거라 레퍼런스가 많을 것이라고 생각했는데 개뿔 루비 3.3 버전을 쓰면서 이런 저런 오류가 발생했기 때문에 직접 글을 쓴다. chirpy starter는 절대 권장하지 않는다. 세부 세팅을 변경하기가 너무 번거로움! Github Fork 방식도 나는 별로다.. 에러가 발생해서 검색해보니 이슈에도 떠있었고,...
1. H line # H1 line ## H2 line ### H3 line H1 line H2 line H3 line 장점은 제목에도 볼드체 적용이 된다는 것. 2. 코드 작성 코드 블럭 print("Hello World!") 인라인 코드 import numpy as np 3. 링크 삽입 [링크 설명](링크) 누르면 네이버로 가요...
블로그를 이전한 거라서 이전 내용은 벨로그에 있습니다~ 여기!