带有Tesseract的hOCR文件/确定PDF是否具有高质量的文本图层

时间:2018-02-14 02:41:53

标签: tesseract hocr

我有一个Tesseract 4.0设置,我们正在使用LSTM模型进行OCR;传入的扫描PDF被解构为单独的300dpi上采样PNG,然后进行去偏移和OCR,然后重新组合成带有文本图层的PDF,同时还保存每个页面PNG以便在Web浏览器中进一步显示。

有时我们会收到已经专业转录过文本图层的PDF文件,并且在这些文件图层中运行Tesseract会导致精确度下降。

我们还要求稍后根据特定标签对PNG页面的某些部分进行分类,以用于机器学习应用程序。

所以问题就是这些:

1)有没有办法确定PDF是否已有文本图层并确定该文本的准确性?

2)已经包含文本图层的PDF可以被分解为单页的每页hOCR文件,因此PNG格式的那些页面的特定区域可以用边界框突出显示,并且从相应的区域检索该区域的文本hOCR文件?

3)当使用Tesseract以hOCR格式保存OCR文本时,它是否提供了足够的信息,只能从hOCR文件中检索任意一块文本,该文件对应于PNG上hOCR文件所在的确切区域。从?

创建

提前致谢

1 个答案:

答案 0 :(得分:1)

有不同的工具可以将带文本图层的PDF转换为简单文本或某些HTML;只是搜索例如对于pdf2text或pdf2html。因此,您可以使用此类工具确定PDF是否具有文本图层(问题1.a),并检查文本内容是否为空。此外,我建议在文本上进行一些健全性检查(例如合理的词长,字典中的一些词),以避免只有乱码(问题1.b的一部分)。

我不知道任何pdf2hocr工具(问题2)。当然可以想出这样的东西。但也许,使用前面提到的pdf2html工具之一的输出更容易。 ocr-fileformat存储库中存在一个相关问题:https://github.com/UB-Mannheim/ocr-fileformat/issues/57

Tesseract的特定输出将为您提供每行和每个单词的边界框的坐标。因此,您可以计算给定区域,哪些线或单词与其相交并输出其文本内容(问题3)。但是,你没有角色的位置。