如何在文本中找到模糊词?

时间:2016-05-20 19:14:52

标签: java ocr tesseract fuzzy-search

我正在使用OCR(Tesseract)从文档中提取数据,此文档必须包含某些关键字才有效,OCR并不完美,所以有时候他可能会阅读“Technlquos”而不是“Techniques”。
所以我想知道java中是否有办法在文本中找到“技术”,即使它被OCR读作“Technlquos”?对于组成单词也是如此:搜索“科学技术”必须接受“Sclences Technlquos”,比如找到与搜索到的单词最接近的单词并接受它,如果它足够接近(例如75%匹配)我找到了一些解决方案{{ 3}}但他们都没有回答我的问题 谢谢

1 个答案:

答案 0 :(得分:-1)

在其他OCR库中,可以通过在生成的文本中保留已识别的单词变体来完成此操作。最有可能的是,“技术”被您的OCR发现并被认为是可疑的。如果有选项可以保留可疑的单词识别变体,那么您将能够搜索它。