토크나이저 2

[Pytorch] embedding dimension 변경

최근에 진행했던 미니프로젝트에서 맡았던 task입니다. 요약된 리뷰 데이터를 임베딩한 뒤, 사용자별 feature로 사용할 수 있도록 만드는 task입니다. Embedding vectorizer를 적용하여 자연어를 수학적으로 바꾸는 것입니다. 저희 프로젝트의 목표는 리뷰 데이터의 요약 및 임베딩을 통해 추천시스템의 성능을 개선하는 것이었습니다. TFIDF를 사용하는 경우 별도의 처리없이 사용자별 feature로 사용할 수 있습니다. 다만 TF-IDF는 sparse한 데이터를 만들기 때문에 추천시스템 성능을 개선하는 데에는 충분하지 않다고 생각했습니다. 저희가 추가로 진행한 것과 같이, word2vec이나 다른 LM 모델의 last hidden state로 임베딩을 하는 경우 사용자의 feature로 사용..

Data/ML & DL 2023.06.26

[Pytorch] 토크나이저에 vocab 추가하기

오늘은 이전에 했던 미니프로젝트에 대해 포스팅해보려고 합니다. 미니프로젝트에서 사용했던 토크나이저는 사전학습된 RoBERTa-small로, huggingface를 이용했습니다. Huggingface tokenizer huggingface의 토크나이저는 subwords 기반입니다. subwords 기반 토크나이저는 알려진 글자나 subword를 기반으로 토크나이징을 합니다. subwords 기반 토크나이저는 빈번하지 않은 단어를 잘 인식하지 못한다는 한계가 있습니다. subwords 알고리즘은 빈번하게 사용하는 단어는 subword로 분할하지 않고 그대로 사용하지만, 빈번하지 않은 단어는 subwords로 분할하기 때문입니다. 한국어 같은 교착어에 효과적이라고 합니다. 그치만 저희 데이터에 적용해본 결과,..

Data/ML & DL 2023.06.18
반응형