Question

当前是否有任何服务或软件工具使用Google Cloud Vision作为OCRing扫描的PDF文件的后端？

否则，如何使用Google Cloud Vision将PDF转换为OCRed PDF？据我所知，Cloud Vision当前支持PDF文件，但是它将仅将识别的文本输出为JSON文件。因此，似乎需要做一个额外的步骤，将转换后的文本放在Google Cloud Vision之外的PDF内图像的顶部，这是一个单独的步骤。

背景：

我经常不得不将扫描文档的PDF文件转换为包含OCRed文本层的PDF文件。到目前为止，我一直在使用OCRKit或ABBYY FineReader之类的软件。我针对Google Cloud Vision的文本识别功能测试了这些解决方案的准确性，而后者则遥遥领先。

Answer 1

正如您所提到的，responses retrieved by Vision API仅适用于 JSON 格式；因此，需要使用third-party libraries在解决方案中包括其他步骤，以便根据响应的内容创建PDF文件。

如果此功能不能满足您的当前需求，则可以使用service public documentation左下角和右上角的发送反馈按钮，以及查看Issue Tracker工具，以便raise a Vision API feature request并通知Google有关所需的功能。

Answer 2

正如其他人提到的那样，您需要使用第三方工具来执行此操作。

首先使用gcv2hocr将google cloud vision响应json转换为hocr文件：

gcv2hocr test.jpg.json output.hocr

然后使用hocr-tools将hocr数据缝合到pdf文件。下面的命令将在“ imgdir”文件夹中查找，并将具有相同名称的.hocr和.jpg合并到out.pdf中的页面中。

hocr-pdf --savefile out.pdf <imgdir>

使用Google Cloud Vision的OCR PDF文件？

2 个答案: