表格识别，TabelGeneration生成的数据与PPLabel标注的数据格式不一样？哪个是正确的？ #13489

deeplearningers · 2024-07-24T07:35:02Z

deeplearningers
Jul 24, 2024

问题描述 / Problem Description

如附件txt, 上边是自己标注的，下边是生成的。
新文件 1.txt

运行环境 / Runtime Environment

OS: win10
Paddle: 2.5.2
PaddleOCR: 2.6

复现代码 / Reproduction Code

自己标注的会报错：out of range ! 在这里：
self.td_token = ["", "<td", "", ""]

工具生成的不会。
目前训练出的模型导致框集中在上边。完全错误

完整报错 / Complete Error Message

可能解决方案 / Possible solutions

附件 / Appendix

Answered by crackso

Jul 25, 2024

文字是否正确理论上是可以不管，目前paddleocr中rec模型和slanet模型分开工作的。
如果按现在很多多模态融合模型，是要考虑的。
不过你可以试试先把格子数量标对了训练看看。

View full answer

crackso · 2024-07-24T08:26:00Z

crackso
Jul 24, 2024

你的描述有点乱，
1，给的附件具体是什么问题？
2，不出错的情况下PPLabel和TabelGeneration的数据训练都是可以用的，找个release的版本。

0 replies

deeplearningers · 2024-07-24T08:38:44Z

deeplearningers
Jul 24, 2024
Author

你的描述有点乱， 1，给的附件具体是什么问题？ 2，不出错的情况下PPLabel和TabelGeneration的数据训练都是可以用的，找个release的版本。

附件是两种数据的对比。自己标注的有，生成的没有。

0 replies

crackso · 2024-07-25T01:01:38Z

crackso
Jul 25, 2024

首先您还是没有描述清楚你的问题？尽量清晰的描述下具体问题；

我看了下你的附件，这个文件也不是同一个，无法做对比分析，到底哪里不一样；

我猜测下，你想问的是不是说标注的内容有点不一样，因为一个有tbody，一个没有？

5 replies

deeplearningers Jul 25, 2024
Author

对啊，你猜测的对。这个对训练有影响吗？
没法同一条数据对比。因为一个是自动生成的。一个是真是数据标注的。
我就想问，为啥数据两者会格式不一样。

crackso Jul 25, 2024

没关系的，那个tbody没有太大影响，理论上所有在dict里面的都有可能会被标注到文件里面，但考虑到分类label当然是越少越准确。

真正有影响的token是td，tr这些。这些才是html的table核心。

可以了解下html中table标签部分。比如你需要某些细节，如表格的每个部分（页眉，页脚，正文），那有这些标签更优；

另外你说的自动生成是用TableGeneration吗？手动标注是PPOCRLabel？

deeplearningers Jul 25, 2024
Author

另外你说的自动生成是用TableGeneration吗？手动标注是PPOCRLabel？

是的老师，自动生成是用TableGeneration，手动标注是PPOCRLabel

crackso Jul 25, 2024

2个都没什么大问题。如果想使用自动生成的，还是需要自己改造下。

另外同一个训练数据，最好是用同一个风格。

deeplearningers Jul 25, 2024
Author

2个都没什么大问题。如果想使用自动生成的，还是需要自己改造下。

另外同一个训练数据，最好是用同一个风格。

训练数据太少的原因可能吗？我这2000张生成数据，训练效果很差

crackso · 2024-07-25T06:48:03Z

crackso
Jul 25, 2024

2k的数据不算少，但具体要看你的表格复杂度，总包至少2~3w，单个模板的数据也不能太少的；

如何评估这个数据是否有问题了，你可以找个你训练过的数据，调一个出个评估下效果，如果这个都不行，说明数据标注有错误。

0 replies

crackso · 2024-07-25T07:56:04Z

crackso
Jul 25, 2024

#13471 上传的文件，我看了，有几个问题：

1，gt文件中的行只有15行，而图片上有19行；
2，标注比较随意，标注好的所有文字必须是图片上的正确文字；

2 replies

deeplearningers Jul 25, 2024
Author

#13471 上传的文件，我看了，有几个问题：

1，gt文件中的行只有15行，而图片上有19行； 2，标注比较随意，标注好的所有文字必须是图片上的正确文字；
不是说训练表格时，框内的文字不需要管吗？文字也得改成跟图片一摸一样啊

crackso Jul 25, 2024

文字是否正确理论上是可以不管，目前paddleocr中rec模型和slanet模型分开工作的。
如果按现在很多多模态融合模型，是要考虑的。
不过你可以试试先把格子数量标对了训练看看。

Answer selected by deeplearningers

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

表格识别，TabelGeneration生成的数据与PPLabel标注的数据格式不一样？哪个是正确的？ #13489

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 5 comments 7 replies

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

Select a reply

表格识别，TabelGeneration生成的数据与PPLabel标注的数据格式不一样？哪个是正确的？ #13489

问题描述 / Problem Description

运行环境 / Runtime Environment

复现代码 / Reproduction Code

完整报错 / Complete Error Message

可能解决方案 / Possible solutions

附件 / Appendix

Replies: 5 comments · 7 replies

deeplearningers Jul 24, 2024 Author

deeplearningers Jul 25, 2024 Author

deeplearningers Jul 25, 2024 Author

deeplearningers Jul 25, 2024 Author

deeplearningers Jul 25, 2024 Author

Replies: 5 comments 7 replies

deeplearningers
Jul 24, 2024
Author

deeplearningers Jul 25, 2024
Author

deeplearningers Jul 25, 2024
Author

deeplearningers Jul 25, 2024
Author

deeplearningers Jul 25, 2024
Author