应用错误收集

我有一个Tesseract 4.0设置，我们正在使用LSTM模型进行OCR;传入的扫描PDF被解构为单独的300dpi上采样PNG，然后进行去偏移和OCR，然后重新组合成带有文本图层的PDF，同时还保存每个页面PNG以便在Web浏览器中进一步显示。

有时我们会收到已经专业转录过文本图层的PDF文件，并且在这些文件图层中运行Tesseract会导致精确度下降。

我们还要求稍后根据特定标签对PNG页面的某些部分进行分类，以用于机器学习应用程序。

所以问题就是这些：

1）有没有办法确定PDF是否已有文本图层并确定该文本的准确性？

2）已经包含文本图层的PDF可以被分解为单页的每页hOCR文件，因此PNG格式的那些页面的特定区域可以用边界框突出显示，并且从相应的区域检索该区域的文本hOCR文件？

3）当使用Tesseract以hOCR格式保存OCR文本时，它是否提供了足够的信息，只能从hOCR文件中检索任意一块文本，该文件对应于PNG上hOCR文件所在的确切区域。从？

创建

提前致谢

有不同的工具可以将带文本图层的PDF转换为简单文本或某些HTML;只是搜索例如对于pdf2text或pdf2html。因此，您可以使用此类工具确定PDF是否具有文本图层（问题1.a），并检查文本内容是否为空。此外，我建议在文本上进行一些健全性检查（例如合理的词长，字典中的一些词），以避免只有乱码（问题1.b的一部分）。

我不知道任何pdf2hocr工具（问题2）。当然可以想出这样的东西。但也许，使用前面提到的pdf2html工具之一的输出更容易。 ocr-fileformat存储库中存在一个相关问题：https://github.com/UB-Mannheim/ocr-fileformat/issues/57

Tesseract的特定输出将为您提供每行和每个单词的边界框的坐标。因此，您可以计算给定区域，哪些线或单词与其相交并输出其文本内容（问题3）。但是，你没有角色的位置。

带有Tesseract的hOCR文件/确定PDF是否具有高质量的文本图层

1 个答案: