我有一堆PDF文件。扫描其中一些(即图像)。它们由文字+图片+表格组成。
我想将表格变成CSV文件。
1)运行Tesseract OCR以获取所有文档的文本。
2)???运行某种类型的表检测算法???
3)提取行/列/单元格及其中的文本。
是否有一些标准的“表格提取算法”可供使用?
谢谢!
答案 0 :(得分:2)
Abbyy Fine Reader包括表格检测,将是最简单的方法。它可以扫描,导入PDF',TIFF等。当自动检测失败时,您还可以手动调整表格和列。
www.abbyy.com - 您应该能够下载试用版,并且您还会发现OCR结果比Tesseract更准确,这也可以为您节省大量时间。
由于有太多不同类型的表需要应对,因此尝试自己编写内容会受到影响。即。线条,没有线条,阴影,多条线条,不同的对齐方式,页眉,页脚等。
祝你好运。