我正在尝试使用pytesseract从图像文件中读取数据表。我的形象就是那个: p27-001
最初我尝试使用image_to_data方法:
from PIL import Image
import pytesseract
tab_im = Image.open('p27-001.jpg')
tab = pytesseract.image_to_data(tab_im)
print(tab)
但我总是收到以下错误:
FileNotFoundError: [Errno 2] No such file or directory: '/tmp/tess_3se80zvv_out.tsv
所以我决定使用image_to_boxes方法。为了确保我不太了解这种方法的作用,但我得到了以下输出:
X 119 1339 132 1351 0
X 134 1340 146 1351 0
~ 120 1328 305 1332 0
~ 306 1328 384 1332 0
~ 385 1328 508 1332 0
D 296 1339 308 1351 0
I 310 1339 316 1351 0
R 318 1339 329 1351 0
E 331 1338 342 1351 0
C 344 1338 353 1352 0
’ 355 1346 357 1351 0
I 358 1339 363 1351 0
‘ 363 1347 366 1351 0
... continue
任何人都知道这意味着什么?还有另一种方法可以在python中读取这个表吗?
我的意图是将这些数据转换为csv文件。
答案 0 :(得分:0)
来自:Training Tesseract – Make Box Files
字符,左,下,右,上,页
因此,对于每个字符,您将获得该字符,后跟其边界框字符,然后是基于0的页码。
创建这些文件并用于训练Tesseract。有框文件编辑器可以查看和编辑它们。对于每个训练图像,您可以创建一个盒子文件,手动校正错误,Tesseract。