Skip to content

howl-anderson/entity2embedding

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Entity2Embedding

基于 TensorFlowWord2vec / Thing2Vec 的Python package.

特性

  • 基于 TensorFlow 实现: 高效 可靠
  • 应用领域灵活,将 Word2Vec 扩展至无限可能
  • 全面功能的 Dashboard (感谢 TensorBoard)
  • 支持海量数据: 支持规模达到T级别的数据

演示

训练监控

标量监控

global_step/sec/learning_rate/loss/training_epoch scalars

计算图

graphs

分布图

distributions

柱形图

histograms

效果评估

PCA降维

pca

T-SNE

sne

距离查询

distance

教程

如下将通过Google官方的text8数据集来演示 Entity2Embedding的使用

下载数据

下载text8数据集, 执行下面的命令

curl http://mattmahoney.net/dc/text8.zip > text8.zip
unzip text8.zip

你想得到text8这个数据文件

构建项目

执行下面的命令:

python -m entity2embedding.shortcuts.preprocessor -p project -f text8

这个脚本将使用默认的设定来构建项目, -f text8指定了数据来源于text8, -p project指定了项目文件存放的位置project目录

训练模型

执行下面的命令:

python -m entity2embedding.shortcuts.train -p project

这个脚本将使用默认的设定来训练模型, -p project指定了项目的位置在project目录中.

可视化监控

启动服务器

tensorboard --logdir project/log

启动浏览器

打开浏览器,输入服务器的地址和端口6006即可查看模型训练情况.如果是本机训练和查看,请直接点击: http://localhost:6006

导出模型

执行下面的命令:

python -m entity2embedding.shortcuts.export -p project

模型数据将会以兼容gensim包的格式导出纯文本模型,模型文件gensim_compatible_word2vec.txt位于project目录中