Oceann Devlog

한국어 형태소 분석기, tokenizer

한국어는 어미와 조사를 포함한 접사가 결합된 형태로 문법적 기능을 수행한다. 따라서 subword tokenization을 수행할 때 형태소 분석만을 수행하기 보다 추가로 BPE 알고리즘을 적용하는 등 한국어에 특화된 적절한 전처리 과정이 필요하다. 또한 인터넷의 발전으로 크롤링을 통해 데이터를 수집하는 경우, ‘ㅋㅋㅋ’, ‘아앗..’과 같이 문법적으...