如何从没有模式的python中的多个交易收据中提取日期

时间:2019-06-11 07:29:47

标签: python ocr python-tesseract data-extraction html-content-extraction

我有多个交易收据,并正在尝试从每个收据中提取发票金额。问题是我正在使用的ocr无法从文档中捕获某些金额。我使用了枕头和pytesseractpdf2imagepdf文档转换为图像,然后使用ocr从这些图像中提取数据。然后,我将文本转换为ocr html文件,以使用关键字和位置提取数据。但是,某些信息尚未从pdf中提取。请帮我解决这个问题。

0 个答案:

没有答案