Python Tesseract OCR培训到特定的单词列表

时间:2015-06-12 11:15:26

标签: python string image-processing ocr tesseract

我对OCR和Tesseract都很陌生。

到目前为止,我有一个工作脚本,它从图像中提取相当好的文本。

我怀疑:有可能训练tesseract只检索某种字典文件中出现的单词/字符吗?

例如,我有一个带有大量人名的.txt,我想训练Tesseract“SONIA”不是“50NlA”而“YANNICK”不是“VANNlD”等......

如果它有所有可能名称的列表,它将能够提供更好的准确性吗?如果原始图像是包含大量人名的文本,以及有关该人员的其他信息,但我只想从ocr检索名称而忽略“嘈杂信息”,我该怎么办?对不起,如果这是一个愚蠢的问题。

我已阅读此https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html并创建了eng.user-words和bazaar文件......下一步应该是什么?既然它给了我相同的输出......

非常感谢你的时间和耐心。

0 个答案:

没有答案