表检测算法

时间:2012-05-26 12:22:45

标签: pdf information-extraction

上下文

我有一堆PDF文件。扫描其中一些(即图像)。它们由文字+图片+表格组成。

我想将表格变成CSV文件。

当前计划:

1)运行Tesseract OCR以获取所有文档的文本。

2)???运行某种类型的表检测算法???

3)提取行/列/单元格及其中的文本。

问题:

是否有一些标准的“表格提取算法”可供使用?

谢谢!

1 个答案:

答案 0 :(得分:2)

Abbyy Fine Reader包括表格检测,将是最简单的方法。它可以扫描,导入PDF',TIFF等。当自动检测失败时,您还可以手动调整表格和列。

www.abbyy.com - 您应该能够下载试用版,并且您还会发现OCR结果比Tesseract更准确,这也可以为您节省大量时间。

由于有太多不同类型的表需要应对,因此尝试自己编写内容会受到影响。即。线条,没有线条,阴影,多条线条,不同的对齐方式,页眉,页脚等。

祝你好运。