标签: levenshtein-distance scanning
我有许多从发票扫描的图像文件。过去这是一个混乱的过程,因此无法保证我不会有在不同时间扫描的重复项。
如何确定从同一文档中扫描了两个图像文件的可能性?
我正在考虑使用OCR输出(来自tesseract)的Levenshtein距离,但我想知道其他方法是否更有希望。