应用错误收集

将扫描的pdf文件转换为可搜索文本的pdf文件

时间：2017-07-08 22:38:26

标签： php pdf ocr

我想将扫描的pdf文件转换为可搜索文本的pdf文件。我想将输入作为扫描PDF，然后我的预期输出是可搜索的PDF。

很少有工具可以将文本作为扫描pdf文件的输出，但我希望文本可搜索的pdf文件作为输出，而不仅仅是文本。

我搜索了它并找到了1个解决方案here，但我的生产服务器是亚马逊的centos，这个工具的安装仅适用于ubuntu，而不适用于亚马逊中心。

如果需要，我准备支付费用。请帮助我提供任何开源web api或付费web api服务的链接或任何可以转换为文本可搜索pdf文件的工具。

我在网络应用程序中使用PHP语言。

2 个答案:

答案 0 :(得分：0)

有几种商业网络API服务可以将扫描的PDF（或扫描图像）转换为可搜索的PDF。其中，我建议尝试ABBYY's Cloud OCR SDK。他们已经在OCR领域工作了几十年并且使用他们自己的OCR引擎，根据我的观察以及我从其他人那里听到的内容，这些引擎往往比基于其他技术的API（例如Tesseract）提供更好的OCR结果。

答案 1 :(得分：0)

OCR.space OCR API可用于创建searchable PDF。

在我的测试中，我发现它比任何基于Tesseract的解决方案都要好。 Abbyy OCR SDK仍然更好 - 但也更昂贵。

您可以在https://ocr.space测试此API的OCR转换质量并看看是否适合你。