我想使用tesseract
从扫描的表中提取文本,并将其放入与表具有相同结构的数组中。
我已经使用opencv
来检测表结构,并获得了表关节的坐标以及整个表结构(存储在np.array
中)。
我希望pytesseract
将其存储到:
my_table = [[x, y, 1, 3],
[x, a, 2, 3],
[x, a, 2, 3],
[x, z, 2, 3]]
我已经使用了商用OCR软件,它们总是首先检测表格结构,其次,识别并提取文本到检测到的表格结构。
如何使用pytesseract完成第二步?用其他语言使用Tesseract的答案也很好。