如何使用pytesseract在Python中读取扫描表?

时间:2018-02-19 17:40:52

标签: python dataframe image-processing

我正在尝试使用pytesseract从图像文件中读取数据表。我的形象就是那个: p27-001

最初我尝试使用image_to_data方法:

from PIL import Image
import pytesseract

tab_im = Image.open('p27-001.jpg')
tab = pytesseract.image_to_data(tab_im)
print(tab)

但我总是收到以下错误:

FileNotFoundError: [Errno 2] No such file or directory: '/tmp/tess_3se80zvv_out.tsv

所以我决定使用image_to_boxes方法。为了确保我不太了解这种方法的作用,但我得到了以下输出:

X 119 1339 132 1351 0

X 134 1340 146 1351 0

~ 120 1328 305 1332 0

~ 306 1328 384 1332 0

~ 385 1328 508 1332 0

D 296 1339 308 1351 0

I 310 1339 316 1351 0

R 318 1339 329 1351 0

E 331 1338 342 1351 0

C 344 1338 353 1352 0

’ 355 1346 357 1351 0

I 358 1339 363 1351 0

‘ 363 1347 366 1351 0

... continue

任何人都知道这意味着什么?还有另一种方法可以在python中读取这个表吗?

我的意图是将这些数据转换为csv文件。

1 个答案:

答案 0 :(得分:0)

来自:Training Tesseract – Make Box Files

字符,左,下,右,上,页

因此,对于每个字符,您将获得该字符,后跟其边界框字符,然后是基于0的页码。

创建这些文件并用于训练Tesseract。有框文件编辑器可以查看和编辑它们。对于每个训练图像,您可以创建一个盒子文件,手动校正错误,Tesseract。