给定表结构的坐标,使用Pytesseract将文本提取到表数组中

时间:2018-07-17 15:15:53

标签: opencv ocr tesseract text-mining python-tesseract

我想使用tesseract从扫描的表中提取文本,并将其放入与表具有相同结构的数组中。

我已经使用opencv来检测表结构,并获得了表关节的坐标以及整个表结构(存储在np.array中)。

例如,对于此图片中的表格:
enter image description here

我希望pytesseract将其存储到:

my_table = [[x, y, 1, 3],
            [x, a, 2, 3],
            [x, a, 2, 3],
            [x, z, 2, 3]]

我已经使用了商用OCR软件,它们总是首先检测表格结构,其次,识别并提取文本到检测到的表格结构。

如何使用pytesseract完成第二步?用其他语言使用Tesseract的答案也很好。

0 个答案:

没有答案