Oceann Devlog

Week 16 - 생성형 인공지능(NLP)

시작에 앞서… 갑자기 13주에서 16주로 건너뛴 것은 입원으로 인해 1주 반 정도가 떴기 때문에ㅠㅠ 생성형 AI 생성형 AI는 크게 자연어 생성, 이미지 생성 두 가지로 구분할 수 있다. 이 때 이미지와 텍스트, 비디오 등이 결합된 Multi-modal 또한 함께 생성형 모델의 한 종류가 된다. 자연어 생성: 텍스트를 입력으로 받아 적절한 출력을 ...

Week 13 - pickle error

개요 이번 프로젝트를 위해 베이스라인 코드를 모듈화하던 중 발생한 에러이다. pickle? 텍스트가 아닌 파이썬의 객체를 저장하는 방식이다. 텍스트 데이터를 tokenize 할 때 멀티 프로세싱을 수행하면, 병렬화 해야 하는 대상들을 pickle로 만들어서 세션끼리 공유한다. 그렇게 나도 Hugging Face의 Dataset 함수 중 map을 사용...

Week 12 - Data Centric 주제 분류 프로젝트 리포트 & 개인 회고

Data-Centric 주제 분류 프로젝트 세 번째 프로젝트가 끝났다. 첫 번째는 STS, 두 번째는 RAG, 세 번째는 Data-Centric이다. 이번 프로젝트는 2주 동안 짧게 진행됐고, 개인 회고를 제출하지 않는 프로젝트였기 때문에 블로그에 개인적으로 기록하고자 한다. 코드는 여기에서 확인 프로젝트 개요 뉴스 기사 제목으로 주제 분류를 하는 ...

Week 11 - Data Centric

공부했던 내용이나 프로젝트 수행한 내용은 꾸준히 기록하는데 주간 학습 기록 폴더 안에 글이 없다. 아무래도 강의 내용과 프로젝트 내용을 체계적으로 잘 정리할 필요가 있겠다. 아무튼 이번에는 데이터 중심의 접근법에 대해서 배운다. Data-Centric이란? 어떤 task를 잘 수행하기 위해서 어떤 접근법이 먼저 떠오르는가? 나는 이븐한 모델이 가장 ...