如何使用Tesseract-ocr为Scand pdf和Normal Pdf正确提取表内容?

时间:2019-05-31 10:07:27

标签: ocr tesseract python-tesseract

我们正在尝试使用tesseract-ocr从普通pdf和扫描的pdf(图像)中提取文本内容。

由于表格内容未正确提取,我们发现表格的pdf存在以下问题。

  1. 一些单元格(行/列)中的内容不可见。表的标题有时丢失。
  2. 如果表中有数字,则不会提取所有数字。
  3. 某些字母被错误提取。例如。我被误解为l。
  4. 列顺序在水平解析时会互换。
  5. 与普通字符一起提取了一些额外的字符。

尝试过image_to_string,image_to_data,opencv方法

使用的示例代码为:

从PIL导入图像

导入pytesseract 从pytesseract导入image_to_string 从pytesseract导入image_to_boxes

image =(pytesseract.image_to_string(Image.open('table_number.jpg'))) 打印(图像)

它应该正确提取到现在为止尚未提取的行和列。请建议使用功能或方法来增强使用tesseract提取表内容的结果。

0 个答案:

没有答案