clean() 删去无用字符,prepare() 打乱后划分训练数据、测试标签和数据
统计词汇、长度、bigram 的频率,条形图可视化
word2vec() 训练词向量,通过 bigram 得到条件频率、概率分布
predict() 先分别进行前向、后向最大匹配,结果相同则直接返回
不同则计算每句的平均对数概率、未录 bigram 可使用 plus1、embed 平滑
get_cut_ind() 得到 pred、label 的切分位,计算精确率、召回率、f1 值
clean() 删去无用字符,prepare() 打乱后划分训练数据、测试标签和数据
统计词汇、长度、bigram 的频率,条形图可视化
word2vec() 训练词向量,通过 bigram 得到条件频率、概率分布
predict() 先分别进行前向、后向最大匹配,结果相同则直接返回
不同则计算每句的平均对数概率、未录 bigram 可使用 plus1、embed 平滑
get_cut_ind() 得到 pred、label 的切分位,计算精确率、召回率、f1 值