表格识别,TabelGeneration生成的数据与PPLabel标注的数据格式不一样?哪个是正确的? #13489
-
问题描述 / Problem Description如附件txt, 上边是自己标注的,下边是生成的。 运行环境 / Runtime Environment
复现代码 / Reproduction Code自己标注的会报错:out of range ! 在这里: 工具生成的不会。 完整报错 / Complete Error Message可能解决方案 / Possible solutions附件 / Appendix |
Beta Was this translation helpful? Give feedback.
Replies: 5 comments 7 replies
-
你的描述有点乱, |
Beta Was this translation helpful? Give feedback.
-
附件是两种数据的对比。自己标注的有 ,生成的没有。 |
Beta Was this translation helpful? Give feedback.
-
首先您还是没有描述清楚你的问题?尽量清晰的描述下具体问题; 我看了下你的附件,这个文件也不是同一个,无法做对比分析,到底哪里不一样; 我猜测下,你想问的是不是说标注的内容有点不一样,因为一个有tbody,一个没有? |
Beta Was this translation helpful? Give feedback.
-
2k的数据不算少,但具体要看你的表格复杂度,总包至少2~3w,单个模板的数据也不能太少的; 如何评估这个数据是否有问题了,你可以找个你训练过的数据,调一个出个评估下效果,如果这个都不行,说明数据标注有错误。 |
Beta Was this translation helpful? Give feedback.
-
#13471 上传的文件,我看了,有几个问题: |
Beta Was this translation helpful? Give feedback.
文字是否正确理论上是可以不管,目前paddleocr中rec模型和slanet模型分开工作的。
如果按现在很多多模态融合模型,是要考虑的。
不过你可以试试先把格子数量标对了训练看看。