Skip to content

CyanYoung/chinese_word_segment

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Chinese Word Segment 2018-11

1.preprocess

clean() 删去无用字符,prepare() 打乱后划分训练数据、测试标签和数据

2.explore

统计词汇、长度、bigram 的频率,条形图可视化

3.build

word2vec() 训练词向量,通过 bigram 得到条件频率、概率分布

4.segment

predict() 先分别进行前向、后向最大匹配,结果相同则直接返回

不同则计算每句的平均对数概率、未录 bigram 可使用 plus1、embed 平滑

5.eval

get_cut_ind() 得到 pred、label 的切分位,计算精确率、召回率、f1 值

About

No description or website provided.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages