Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

非常喜欢你的这项工作,'shibing624/text2vec-base-chinese'库,好像不能加速,有办法解决吗 #4

Open
song4875343 opened this issue Jan 5, 2023 · 2 comments

Comments

@song4875343
Copy link

'shibing624/text2vec-base-chinese'是huggingface下载量超高的一个中文库,比sbert 的那个多语言库准确度高很多,看不到你说的两部分,sentence_transform 也支持,有办法加速吗

@song4875343
Copy link
Author

用你的库建立索引,如果数量比较小2k一下就运行很好,超过2k就会锁死,以前我用python从没出现过这种情况,32g内存。不用你的fast选项用一般的就正常。是因为爆内存了吗,是不是分批次encode 然后用faiss的增量方法能解决。能处理一下这个bug吗?

@yuanzhoulvpi2017
Copy link
Owner

  1. 感谢你提出了一个非常好的建议和bug。
  2. 目前确实是有问题的,目前确实是有问题的。好像是很多结构都更新了,但是我这个还是老的方法。后面可以考虑支持更新一下。
  3. 但是,我这个仓库,主要是提供一个提速的方法,建议看看具体的优化过程,而不只是使用这个包。
  4. 这个库做文本转向量服务,一般都是不会卡的。你反应卡,多半是因为你对一个大的matrix做了矩阵乘法。建议优化一下匹配代码。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants