Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

功能建议:增加读取剪贴板功能 #4

Closed
AlphatoBeta opened this issue May 31, 2022 · 11 comments
Closed

功能建议:增加读取剪贴板功能 #4

AlphatoBeta opened this issue May 31, 2022 · 11 comments

Comments

@AlphatoBeta
Copy link

希望增加粘贴图片功能,这样就可以调用系统截图,然后粘贴进来直接识别了。

@AlphatoBeta
Copy link
Author

另外,是否会考增加对飞浆V3模型的支持(官网说V3的英文场景提升11%,对于批量识别英文书籍,速度提升应该是可感知的) :)

@hiroi-sora
Copy link
Owner

hiroi-sora commented May 31, 2022

功能建议:增加读取剪贴板功能

如你所愿。已在v1.2.3版加入。

(其实我之前也想做这个功能。但主要咱家PaddleOCR-json只支持读硬盘中的文件,而我希望截图的话直接读内存更好,优雅一点……)

嘛算了,现在还是先缓存到硬盘再调用识别。凑合凑合😂

@hiroi-sora
Copy link
Owner

hiroi-sora commented May 31, 2022

是否会考虑增加对飞桨V3模型的支持

(Update:v1.2.6 已默认使用V3模型。)

v1.2.3 的原回复:

看了一下,V3模型和V2在使用上是通用的,PaddleOCR-json可以直接升级,替换模型文件即可。但是实测效果没有想象中好。

在耗时上,虽然官方说中文场景效果相比于PP-OCRv2再提升5%。但是经多次测试,都是v3时间更长。见下图,左为v3,右为v2。

image8b0cdefc2599dc4a.png

在识别精度上,v3的优点是对小字的识别率更高,部分v2忽略的小字也会检测出来。见下图,左为v3,素材中“快速存档”“快速读档”等字也被框住了;而v2没有。(推测,就是因为v3增加了对小字的检测率,所以要花费更长时间来识别更多内容。)

imagefbbaa438605d43c4.png

但是,对于常规大小的文字段落,v3的识别率反而更差:错字、漏字比v2显著增加。简单挑了几个段落:

v3 v2
支配耆 支配者
七传说 七夕传说
冉于轻微的动 由于轻微的晃动
集中真的很强 集中力真的很强
不知廉的孩子 不知廉耻的孩子
星也会点点地移动 星星也会一点点地移动

所以,我感觉v3现在还不太稳定,不打算换~

@AlphatoBeta
Copy link
Author

已经更新,识别剪贴板十分好用

@ranqianchen
Copy link

是真的好用!
还有是否能新增一个“自动复制识别内容”的功能啊,求求了!

@hiroi-sora
Copy link
Owner

@ranqianchen

是否能新增一个“自动复制识别内容”的功能

小意思,已加

@hiroi-sora
Copy link
Owner

另外,是否会考虑增加对飞浆V3模型的支持(官网说V3的英文场景提升11%,对于批量识别英文书籍,速度提升应该是可感知的) :)

v1.2.6 已支持并默认附带V3版模型。

新版本的速度确实比前代有明显提升,不管识别哪种语言,都有20%以上的耗时减少。但这似乎不是V3模型的功劳,而是Paddle团队优化 C++ 识别引擎的结果,代码做了相当多的调整(搞得我也要跟着重构😂)。新版引擎对V2模型依然有同样的提速效果~

V3模型最大的优势是准确度提高了,很多V2认不出来的小字、扭曲字形,V3可以搞定。

@AlphatoBeta
Copy link
Author

已经推荐到小众软件了https://www.appinn.com/umi-ocr/

@Evezerest
Copy link

Evezerest commented Sep 19, 2022

但是,对于常规大小的文字段落,v3的识别率反而更差:错字、漏字比v2显著增加。简单挑了几个段落:

你好,我是PaddleOCR的PM,对于v3效果的疑问我们可以再深入交流一下,可以进一步改善你的程序体验。方便的话可以微信扫描下方二维码,进群后a一下群主;或者通过邮件paddleocr@outlook.com联系

@LDOUBLEV
Copy link

@hiroi-sora

看了一下,V3模型和V2在使用上是通用的,PaddleOCR-json可以直接升级,替换模型文件即可。但是实测效果没有想象中好。

在耗时上,虽然官方说中文场景效果相比于PP-OCRv2再提升5%。但是经多次测试,都是v3时间更长。见下图,左为v3,右为v2。

hello,关于V3性能的问题,请教下,在打包exe的时候预测的时候有没有设置enable_mkldnn=true,设置这个参数在比较好的intel硬件上会提升比较明显,官方说的『PP-OCRv2再提升5%』也是开启mkldnn后测试的结果;如果可以,麻烦提供下你的硬件和系统版本,我们也会尽快验证性能变慢问题的原因。

@hiroi-sora
Copy link
Owner

hiroi-sora commented Sep 19, 2022

对于v3效果的疑问我们可以再深入交流一下,可以进一步改善你的程序体验。

哈哈,欢迎PP官方的回复! @Evezerest

当时我测出“V3模型效果比V2差”,是使用 PPOCR-v2.1 版的c++引擎。现在我的项目已经跟进升级为了 v2.6 版引擎,这个版本对V3的适配性没有任何问题,V3不会弱于V2。相反,V3 模型的识别率在各个方面(det,rec)都显著强于V2。感谢PP团队的工作!

在打包exe的时候预测的时候有没有设置enable_mkldnn=true

@LDOUBLEV

这个项目使用的是C++引擎,我已经设了 enable_mkldnn 的默认值为true。经过测试,它确实有极大的加速效果,即使是在AMD上。

在 v2.6 引擎下,无论V2还是V3模型的速度都远胜于 v2.1 引擎。但是,引擎初始化和加载模型的时间比前代长(从1s变慢到近2s),内存占用也比前代有显著提高(代码里已开启了内存优化 config.EnableMemoryOptim() )。尤其是 v3 slim 模型,在 v2.6 引擎下占用内存极高,可能存在问题。

两位可以看一下我的 效率测试

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants