ADHoc信息检索

时间:2017-08-15 21:37:58

标签: tesseract information-retrieval data-extraction python-tesseract

我想从图片收据中提取总帐单。我可以提取图像中存在的整个数据,但现在我很惊讶只提取了我需要的信息。

这是我的形象。

enter image description here

我正在粘贴图像中提取的信息

m cm lnnk 3mm: :33; no 1 z m
x Visut all! ms“; (or nulnunn mfn an an: nan.



Sub Iota] 19.56
TOTAL 19.56
VISA 1956
Fun 19.56
D!!! You Know 0



For ureat-tastlru dessens under 200
cahries, try our Triple Berry Frozen
Yogurt Sunda: a dish of Frozen Yogurt.
or a Vanma rozen Vugurt Done.

根据这些数据,我只想提取总账单。为了得到这个,我发现我可以使用Ad Hoc Normalization(Adhoc检索)。有人可以提供关于临时检索的任何见解。如果还有其他选项可以从图像中提取数据,请允许我这样做。我正在使用tesseract来提取这些信息。有时它没有给出正确的输出。我可以使用一些帮助即兴创作tesseract给出的输出。

1 个答案:

答案 0 :(得分:0)

在这种情况下,为什么需要临时检索?由于您从收据中获得OCR结果,因此您只需对" TOTAL"旁边显示的项目执行常规文本搜索。

有图像文本搜索算法,但这对于这样一个简单的应用来说似乎有些过分,除非有充分的理由这样做。