如果OCR是高度针对性的,它可以在瞬间运行吗? (小字典)

时间:2013-02-07 04:24:22

标签: ocr tesseract

我正在寻找一个开源的ocr(也许是tesseract),它使用字典来匹配单词。例如,我知道这个ocr只会用于搜索某些名称。想象一下,我有一个主客人名单(已写),我想在一秒钟内使用ocr扫描此列表,并针对名称数据库进行检查。

我知道传统的ocr可以尝试读取每个字母,然后我可以用100个名称交叉引用结果,但这需要太长时间。如果ocr只关注那100个单词而没有其他任何东西那么它应该能够在一瞬间完成所有这些。即猜测一个单词可能是“Jach”是没有意义的,因为“Jach”不是我数据库中的名字。 ocr应该能够推断出它是“Jack”,因为它是数据库中的实际名称。

这可能吗?

1 个答案:

答案 0 :(得分:2)

应该可以。可以这样想:不是让你的OCR寻找'J'而是直接寻找'Jack',而是:作为一个单独的符号

因此,当您训练/校准OCR时,请使用与单个符号相似的整个单词图像进行训练。

(如果您的OCR中没有此功能,则首先将整个单词的图像映射到唯一的符号,然后将该符号转换为最终的单词字符串)