Question

我正在尝试使用tesseract扫描扫描的图像。

输入图像包含

图形图像
网格
段落

下面是我要遵循的步骤，

将图像转换为hocr文件
进行一些文本更改
使用python中的reportlib将hocr转换为pdf文件

我面临的问题

1）我能够从网格中获取文本。但是我无法画网格线。是否可以通过hocr文件或使用报告库来实现。网格将是一个非常简单的网格，如下所示，

  -------------------------------
   | Name    |  Age   |   Job    |
   |         |        |          |
   | John    |  50    |   Dev    |
   -------------------------------

2）我需要将图形图像保留在输出的pdf文件中。

我该如何解决这些问题？

使用OCR识别网格和图形图像

0 个答案: