c# - 如何：使用C＃提高OCR的PDF质量

我正在创建一个监控文件夹以查找扫描文件的服务。文件存在后，服务会将其选中，并将其转换为可读的PDF。在此过程中，服务还会搜索条形码。在此之后，提取文本并将文本及其文本存储到我们软件的数据库中。该位置基于条形码。

现在，对于OCR，我们使用的是Atalasoft的SDK（http://www.atalasoft.com/）。条形码识别器也包含在此SDK中。

但转换后的文字仍有一些错误。（我在其他OCR程序中运行了一些测试，但Atalasoft表现不错。）我正在寻找一些软件（SDK-kit），它允许我提高用于OCR目的的PDF质量。

我测试了Kofax VRS Elite（http://www.kofax.com/vrs-virtualrescan/）。我正在寻找类似的东西，但可以使用某种SDK-kit在服务中实现。

之前有过这样做过的人，或者有过类似的问题？提前thx！

您可以尝试完全遵循不同的路径：
查看是否可以将扫描仪配置为直接扫描到PDF并动态执行OCR。利盟扫描仪可以做到这一点。这将创建具有可选择和可搜索文本的PDF。这反过来可以用PDF阅读库提取。

或者，您可能需要查看http://www.abbyy.com/，看看您是否获得了更好的结果。

如果这些不是很好的选择，您可能希望系统地分解您的问题：
1.扫描图像的图像质量是否有问题？如果是这样，那么必须首先修复。您的OCR解决方案可能会受到分辨率，对比度和颜色的影响 2.它是OCR软件吗？获取高度清晰的文档，看看OCR软件是否出错。如果是这样，那么你知道你必须找到更好的OCR软件 3.如果您的文档质量合理并且您的OCR软件在破译易读文档方面成功率很高，那么您可能需要查看不起作用的例外情况，并根据具体情况对其进行处理。

如果文档上的污迹和背景图像是导致问题的原因，您可能需要研究避免这种情况的方法，或者使用公开API的图像处理软件清除它。

如何：使用C＃提高OCR的PDF质量

1 个答案: