我需要从file的类似格式的表中提取数据。有一些OCR错误,但我有一种自动方法来纠正它们。
我尝试过:
问题:广告工具在检测桌子边缘时效果很差。这些表格遵循类似的通用格式,但是每次扫描的对齐方式略有不同,因此对寄宿生进行硬编码也不起作用。
问题:你们知道一种检测表开始位置然后应用一些模板之一的好方法吗?
对于此类工作的其他任何提示,我们将不胜感激。
答案 0 :(得分:2)
更新2/26: 我可以解决我自己的问题,尽管可以使用快速或更好的解决方案进行响应。
主要问题之一是表的尺寸大致相似,但页面之间存在差异。扫描的图像在页面之间也略有偏移,从而出现两个对齐问题。我当前的工作流程可以同时解决这两个问题。
解决方案:
相同表格类型的图像仍未对齐,因此无法在(x,y)坐标中指定表格布局。每个图片中的表格位置都不同。
我需要根据桌子的位置对齐图像,但是没有检测到桌子,就没有很好的方法。
我以一种有趣的方式解决了这个问题,但是我首先尝试了以下步骤。
解决方案:
将图像切成表格类型对齐部分中介绍的表格后,请使用Photoshop中的“自动对齐图层”功能对齐图像。
分步解决方案:
完成!根据需要合并每个表的文件。完成项目后,我将发布用于执行此操作的python代码。清理后,我也将发布数据。
答案 1 :(得分:0)
https://www.pdftron.com/pdf-tools/pdf-table-extraction/
上有免费的在线工具。相关博客https://www.pdftron.com/blog/parsing-extraction/table-extraction-and-pdf-to-xml-with-pdfgenie/引用了PDFGenie命令行工具
答案 2 :(得分:0)
代替Camelot table_areas参数(它指定固定边界),您可以尝试使用table_regions参数指定表可能所在的区域(Camelot将仅分析指定区域以查找表)。
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions
请及时通知我们。