标签: python ocr python-tesseract data-extraction hocr
我正在尝试从交易收据中提取日期。我将pdf转换为图像,并使用ocr从图像中提取所有数据。我已经使用hocr将文件转换为html文件,以便可以使用来自元素标签的关键字提取数据。我需要从收据中提取发票日期。 问题是这些收据没有特定的格式或样式,日期采用不同的格式并放置在文档中的不同位置。我正在尝试使用“ date”关键字来检索关键字的父类以获取日期,但它仅适用于一些文件。能否让我知道如何使用python中的beautifulsoup检查父标记是否具有数字。如果还有其他方法,请告诉我