如何使用Tesseract-OCR将图片中的文本提取到Excel工作表

时间:2018-04-23 04:47:06

标签: python python-3.x python-2.7 tesseract python-tesseract

我还是Python和Tesseract的新手,我在尝试从带有表格(如图所示)的图像中提取文本到excel文件时遇到了问题。我从PyImageSearch开始学习教程,然后解压缩文本并在控制台中打印出来。 我想提取文本并将输出保存为excel文件,其中的表和行与图片中的相同。我该怎么做? Sample Image

1 个答案:

答案 0 :(得分:0)

我试图解决您的问题,请访问我的Github存储库Code to extract a table from an image

给定的代码获取输入图像并提取表格数据。 .ipynb文件中提供了详细说明。请看看。

例如,我正在使用您上载的图像的一部分。 enter image description here

该算法将提取信息,如下图所示。 enter image description here

从图像中提取信息时会出现错误。可以进一步修改代码以消除这些错误。