使用Google Cloud Vision的OCR PDF文件?

时间:2018-09-15 10:40:52

标签: pdf pdf-generation ocr google-cloud-vision

当前是否有任何服务或软件工具使用Google Cloud Vision作为OCRing扫描的PDF文件的后端?

否则,如何使用Google Cloud Vision将PDF转换为OCRed PDF?据我所知,Cloud Vision当前支持PDF文件,但是它将仅将识别的文本输出为JSON文件。因此,似乎需要做一个额外的步骤,将转换后的文本放在Google Cloud Vision之外的PDF内图像的顶部,这是一个单独的步骤。

背景:

我经常不得不将扫描文档的PDF文件转换为包含OCRed文本层的PDF文件。到目前为止,我一直在使用OCRKit或ABBYY FineReader之类的软件。我针对Google Cloud Vision的文本识别功能测试了这些解决方案的准确性,而后者则遥遥领先。

2 个答案:

答案 0 :(得分:0)

正如您所提到的,responses retrieved by Vision API仅适用于 JSON 格式;因此,需要使用third-party libraries在解决方案中包括其他步骤,以便根据响应的内容创建PDF文件。

如果此功能不能满足您的当前需求,则可以使用service public documentation左下角和右上角的发送反馈按钮,以及查看Issue Tracker工具,以便raise a Vision API feature request并通知Google有关所需的功能。

答案 1 :(得分:0)

正如其他人提到的那样,您需要使用第三方工具来执行此操作。

首先使用gcv2hocr将google cloud vision响应json转换为hocr文件:

gcv2hocr test.jpg.json output.hocr

然后使用hocr-tools将hocr数据缝合到pdf文件。下面的命令将在“ imgdir”文件夹中查找,并将具有相同名称的.hocr和.jpg合并到out.pdf中的页面中。

hocr-pdf --savefile out.pdf <imgdir>