标签: python ocr python-tesseract data-extraction html-content-extraction
我有多个交易收据,并正在尝试从每个收据中提取发票金额。问题是我正在使用的ocr无法从文档中捕获某些金额。我使用了枕头和pytesseract和pdf2image将pdf文档转换为图像,然后使用ocr从这些图像中提取数据。然后,我将文本转换为ocr html文件,以使用关键字和位置提取数据。但是,某些信息尚未从pdf中提取。请帮我解决这个问题。
ocr
pytesseract
pdf2image
pdf
html