我正在寻找一个开源的ocr(也许是tesseract),它使用字典来匹配单词。例如,我知道这个ocr只会用于搜索某些名称。想象一下,我有一个主客人名单(已写),我想在一秒钟内使用ocr扫描此列表,并针对名称数据库进行检查。
我知道传统的ocr可以尝试读取每个字母,然后我可以用100个名称交叉引用结果,但这需要太长时间。如果ocr只关注那100个单词而没有其他任何东西那么它应该能够在一瞬间完成所有这些。即猜测一个单词可能是“Jach”是没有意义的,因为“Jach”不是我数据库中的名字。 ocr应该能够推断出它是“Jack”,因为它是数据库中的实际名称。
这可能吗?
答案 0 :(得分:2)
应该可以。可以这样想:不是让你的OCR寻找'J'而是直接寻找'Jack',而是:作为一个单独的符号。
因此,当您训练/校准OCR时,请使用与单个符号相似的整个单词图像进行训练。
(如果您的OCR中没有此功能,则首先将整个单词的图像映射到唯一的符号,然后将该符号转换为最终的单词字符串)