We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
KSS
비트코인
알트코인
비트+코인
알트+코인
GPT-2
Roberta
##
BERT
DistilBERT
Electra
_
ALBERT
XLNet
mecab
khaii
한나눔
꼬꼬마
KOMORAN
OKT
kiwi
twitter
SentecePiece BPE Tokenizer
The text was updated successfully, but these errors were encountered:
감사합니다. 자연어처리 관련 프로젝트 진행하는데 많은 도움이 되었습니다;)
Sorry, something went wrong.
좋은 글 잘 읽었습니다.
SeongIkKim
No branches or pull requests
📌 요약
📔 상세
Before
After
1. Tokeninzer의 종류 조사
Intro
KSS
Subword Tokenization
비트코인
- NN //알트코인
- UNK비트+코인
- NN+NN //알트+코인
- UNK+NNByte Pair Encoding
GPT-2
,Roberta
등이 사용WordPiece
##
이 붙는다.BERT
,DistilBERT
,Electra
등이 사용Unigram
SentencePiece(==WPM)
_
를 사용한다.ALBERT
,XLNet
등이 사용2. 한국어에 적합한 Tokenizing 방식
레퍼런스
Intro
요약
mecab
을 사용하는게 시간면으로나, 성능면으로나 좋은편상세
khaii
,한나눔
,꼬꼬마
,KOMORAN
,OKT
,mecab
,kiwi
,twitter
mecab
형태소 분석기를 돌린 후 tf-idf Vectorizing할 때 uni/bigram 단위로 vocab을 생성하여 검색 효율을 높임.3. 우리 데이터셋에 알맞은 Tokenizer(제안)
방식
사용 해 볼 만한 Tokenizer Library
SentecePiece BPE Tokenizer
The text was updated successfully, but these errors were encountered: