应用错误收集

议会辩论PDF的光学字符识别

时间：2009-07-09 14:59:45

标签： pdf ocr text-extraction layout-extraction pdf-scraping

对于合同工作，我需要将来自德国联邦议会的许多旧的，仅扫描图形的全体辩论协议PDF格式化。

问题是大多数这些文件都采用双列格式：

Sample Protocol http://sert.homedns.org/img/btp12001.png

我很乐意阅读您对以下问题的回答：

如何在将两列送入OCR之前拆分它们？
您推荐哪种商业开源OCR软件或框架？为什么？

请注意，任何工具，编程语言，框架等都可以。不要犹豫推荐深奥的产品，图书馆，如果你认为它们被jub ^ __ ^ !!

更新：议会已经扫描了这些文件o_O：sample（与上图相同）并且有很多文件，我想尽快交付合同我不能去取相同文件的打印副本，自己剪切和扫描。它们太多了。

最诚挚的问候，
Cetin Sert

4 个答案:

答案 0 :(得分：0)

在扫描之前将页面向下剪切。

答案 1 :(得分：0)

这取决于您使用的是哪种OCR软件。几年前我用OCR API做了一些工作，我不记得这个名字，但我认为还有很多选择。无论如何，这个API允许我在页面上定义区域到OCR，如果你总是大致知道列的位置，你可以使用SDK来映射页面的各个部分。

答案 2 :(得分：0)

我使用Omnipage 17来做这些事情。它也有一个批处理模式，您可以将文档放在一个文件夹中，然后将结果放入另一个文件夹中。它可以自动识别布局，包括列，也可以将默认布局设置为列。您可以设置许多选项输出的外观。但如果一切正确，请尝试演示。我目前在一些文件中遇到了韧带问题。所以像“fliegen”这样的词就像“fl iegen”一样，所以你必须拼写它们。

答案 3 :(得分：0)

查看http://www.wisetrend.com/wisetrend_ocr_cloud.shtml（OCR的在线REST API）。它基于强大的ABBYY OCR引擎。您可以获得一个免费帐户，并尝试使用一些图像来查看它是否处理2列格式（应该能够执行此操作）。此外，您可以使用许多设置（请参阅API文档） - 在使用2列之前，您可能需要调整其中的一些设置。最后，作为最后的解决方案，如果2列分割总是在同一个地方，你可以先创建一个程序，将输入图像分成两个图像（使用一些标准图像写这个不应该很难处理库），然后将生成的图像提供给OCR过程。