使用OCR识别网格和图形图像

时间:2019-08-08 08:10:12

标签: ocr tesseract reportlab python-tesseract hocr

我正在尝试使用tesseract扫描扫描的图像。

输入图像包含

  1. 图形图像
  2. 网格
  3. 段落

下面是我要遵循的步骤,

  1. 将图像转换为hocr文件
  2. 进行一些文本更改
  3. 使用python中的reportlib将hocr转换为pdf文件

我面临的问题

1)我能够从网格中获取文本。但是我无法画网格线。是否可以通过hocr文件或使用报告库来实现。网格将是一个非常简单的网格,如下所示,

  -------------------------------
   | Name    |  Age   |   Job    |
   |         |        |          |
   | John    |  50    |   Dev    |
   -------------------------------

2)我需要将图形图像保留在输出的pdf文件中。

我该如何解决这些问题?

0 个答案:

没有答案
相关问题