处理从给定图像中检索内容的项目,并与存储库中的其他图像进行比较,并列出匹配的图像。
应该采用什么方法来做到这一点,以便搜索最终不会减速。
我计划做的第一级过滤是使用任何图像查询(CBIR技术)来检索与给定图像的模式匹配的图像。 然后执行OCR以获取图像内容并进行匹配检查。
如果有更好的方法,请告诉我。
答案 0 :(得分:0)
完成步骤
软件 1. Tesseract OCR 2. Image Magick - 用于图像清洁 3. Textcleaner脚本
使用Image Magick软件找出图像方向
取消图像以获取文本并应用过滤以获取帐单号,日期和金额。
保存的数据用于将来的搜索功能以消除重复