python - Python Tesseract OCR培训到特定的单词列表

我对OCR和Tesseract都很陌生。

到目前为止，我有一个工作脚本，它从图像中提取相当好的文本。

我怀疑：有可能训练tesseract只检索某种字典文件中出现的单词/字符吗？

例如，我有一个带有大量人名的.txt，我想训练Tesseract“SONIA”不是“50NlA”而“YANNICK”不是“VANNlD”等......

如果它有所有可能名称的列表，它将能够提供更好的准确性吗？如果原始图像是包含大量人名的文本，以及有关该人员的其他信息，但我只想从ocr检索名称而忽略“嘈杂信息”，我该怎么办？对不起，如果这是一个愚蠢的问题。

我已阅读此https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html并创建了eng.user-words和bazaar文件......下一步应该是什么？既然它给了我相同的输出......

非常感谢你的时间和耐心。