应用错误收集

时间：2012-05-26 12:22:45

标签： pdf information-extraction

上下文

我有一堆PDF文件。扫描其中一些（即图像）。它们由文字+图片+表格组成。

我想将表格变成CSV文件。

1）运行Tesseract OCR以获取所有文档的文本。

2）???运行某种类型的表检测算法???

3）提取行/列/单元格及其中的文本。

是否有一些标准的“表格提取算法”可供使用？

谢谢！

答案 0 :(得分：2)

Abbyy Fine Reader包括表格检测，将是最简单的方法。它可以扫描，导入PDF'，TIFF等。当自动检测失败时，您还可以手动调整表格和列。

www.abbyy.com - 您应该能够下载试用版，并且您还会发现OCR结果比Tesseract更准确，这也可以为您节省大量时间。

由于有太多不同类型的表需要应对，因此尝试自己编写内容会受到影响。即。线条，没有线条，阴影，多条线条，不同的对齐方式，页眉，页脚等。

祝你好运。