한국어 형태소 분석기, tokenizer
한국어는 어미와 조사를 포함한 접사가 결합된 형태로 문법적 기능을 수행한다. 따라서 subword tokenization을 수행할 때 형태소 분석만을 수행하기 보다 추가로 BPE 알고리즘을 적용하는 등 한국어에 특화된 적절한 전처리 과정이 필요하다. 또한 인터넷의 발전으로 크롤링을 통해 데이터를 수집하는 경우, ‘ㅋㅋㅋ’, ‘아앗..’과 같이 문법적으...
한국어는 어미와 조사를 포함한 접사가 결합된 형태로 문법적 기능을 수행한다. 따라서 subword tokenization을 수행할 때 형태소 분석만을 수행하기 보다 추가로 BPE 알고리즘을 적용하는 등 한국어에 특화된 적절한 전처리 과정이 필요하다. 또한 인터넷의 발전으로 크롤링을 통해 데이터를 수집하는 경우, ‘ㅋㅋㅋ’, ‘아앗..’과 같이 문법적으...
Chirpy 선택 이유 많은 사람들이 사용하는 거라 레퍼런스가 많을 것이라고 생각했는데 개뿔 루비 3.3 버전을 쓰면서 이런 저런 오류가 발생했기 때문에 직접 글을 쓴다. chirpy starter는 절대 권장하지 않는다. 세부 세팅을 변경하기가 너무 번거로움! Github Fork 방식도 나는 별로다.. 에러가 발생해서 검색해보니 이슈에도 떠있었고,...
1. H line # H1 line ## H2 line ### H3 line H1 line H2 line H3 line 장점은 제목에도 볼드체 적용이 된다는 것. 2. 코드 작성 코드 블럭 print("Hello World!") 인라인 코드 import numpy as np 3. 링크 삽입 [링크 설명](링크) 누르면 네이버로 가요...
블로그를 이전한 거라서 이전 내용은 벨로그에 있습니다~ 여기!