是否有一个OCR可以将它看到的内容与我给出的可能单词列表进行比较?

时间:2012-07-16 02:01:41

标签: ocr

我正在寻找一个开源OCR,但是我可以告诉程序我希望它寻找哪些字母。例如,如果只有字母和逗号是可能的,那么我不希望OCR浪费资源来查明它是否是数字。此外,我希望OCR能够输出它所看到的“思考”的可能性。例如,它有一个'I',那么OCR可能会认为它是一个小写的'L',但它也应该有'I'作为一个接近的秒。基本上我希望OCR给我一个可能性列表,也许是数字来表示它是多么确定。例如,它可能会说'l':55%,'我':40%,其他:5%。

另一件事是我会知道字母是什么文字类型,即Ariel,所以没有必要让OCR比较和对比不同类型的文字。

基本上,我正在编写一个只存在一定数量可能性的程序。例如,假设我使用OCR来读取元素周期表中的元素。只有有限数量的元素,因此OCR应该能够猜测“HeIeun”实际上是“Helium”。

有这样的事情,还是我必须自己编写一份这样的编码?感谢。

1 个答案:

答案 0 :(得分:0)

您可能想看看谷歌开发的开源项目tesseract,它可以提供非常好的结果并且对OCR有很多支持。

提供您自己的单词列表以识别文本只需将tessdata / eng.user-words替换为您自己的单词列表,格式相同 - UTF8文本,每行一个单词。

要获得非常高的准确度chek this问题。