议会辩论PDF的光学字符识别

时间:2009-07-09 14:59:45

标签: pdf ocr text-extraction layout-extraction pdf-scraping

对于合同工作,我需要将来自德国联邦议会的许多旧的,仅扫描图形的全体辩论协议PDF格式化。

问题是大多数这些文件都采用双列格式:

Sample Protocol http://sert.homedns.org/img/btp12001.png

我很乐意阅读您对以下问题的回答:

  1. 如何在将两列送入OCR之前拆分它们?
  2. 您推荐哪种商业开源OCR软件或框架?为什么?
  3. 请注意,任何工具,编程语言,框架等都可以。不要犹豫推荐深奥的产品,图书馆,如果你认为它们被jub ^ __ ^ !!

    更新:议会已经扫描了这些文件o_O:sample(与上图相同)并且有很多文件,我想尽快交付合同我不能去取相同文件的打印副本,自己剪切和扫描。它们太多了。

    最诚挚的问候,
    Cetin Sert

4 个答案:

答案 0 :(得分:0)

在扫描之前将页面向下剪切。

答案 1 :(得分:0)

这取决于您使用的是哪种OCR软件。几年前我用OCR API做了一些工作,我不记得这个名字,但我认为还有很多选择。无论如何,这个API允许我在页面上定义区域到OCR,如果你总是大致知道列的位置,你可以使用SDK来映射页面的各个部分。

答案 2 :(得分:0)

我使用Omnipage 17来做这些事情。它也有一个批处理模式,您可以将文档放在一个文件夹中,然后将结果放入另一个文件夹中。 它可以自动识别布局,包括列,也可以将默认布局设置为列。 您可以设置许多选项输出的外观。 但如果一切正确,请尝试演示。我目前在一些文件中遇到了韧带问题。所以像“fliegen”这样的词就像“fl iegen”一样,所以你必须拼写它们。

答案 3 :(得分:0)

查看http://www.wisetrend.com/wisetrend_ocr_cloud.shtml(OCR的在线REST API)。它基于强大的ABBYY OCR引擎。您可以获得一个免费帐户,并尝试使用一些图像来查看它是否处理2列格式(应该能够执行此操作)。此外,您可以使用许多设置(请参阅API文档) - 在使用2列之前,您可能需要调整其中的一些设置。最后,作为最后的解决方案,如果2列分割总是在同一个地方,你可以先创建一个程序,将输入图像分成两个图像(使用一些标准图像写这个不应该很难处理库),然后将生成的图像提供给OCR过程。