Question

我正在尝试使用pytesseract从图像文件中读取数据表。我的形象就是那个： p27-001

最初我尝试使用image_to_data方法：

from PIL import Image
import pytesseract

tab_im = Image.open('p27-001.jpg')
tab = pytesseract.image_to_data(tab_im)
print(tab)

但我总是收到以下错误：

FileNotFoundError: [Errno 2] No such file or directory: '/tmp/tess_3se80zvv_out.tsv

所以我决定使用image_to_boxes方法。为了确保我不太了解这种方法的作用，但我得到了以下输出：

X 119 1339 132 1351 0

X 134 1340 146 1351 0

~ 120 1328 305 1332 0

~ 306 1328 384 1332 0

~ 385 1328 508 1332 0

D 296 1339 308 1351 0

I 310 1339 316 1351 0

R 318 1339 329 1351 0

E 331 1338 342 1351 0

C 344 1338 353 1352 0

’ 355 1346 357 1351 0

I 358 1339 363 1351 0

‘ 363 1347 366 1351 0

... continue

任何人都知道这意味着什么？还有另一种方法可以在python中读取这个表吗？

我的意图是将这些数据转换为csv文件。

Answer 1

来自：Training Tesseract – Make Box Files

字符，左，下，右，上，页

因此，对于每个字符，您将获得该字符，后跟其边界框字符，然后是基于0的页码。

创建这些文件并用于训练Tesseract。有框文件编辑器可以查看和编辑它们。对于每个训练图像，您可以创建一个盒子文件，手动校正错误，Tesseract。

如何使用pytesseract在Python中读取扫描表？

1 个答案: