我对OCR和Tesseract都很陌生。
到目前为止,我有一个工作脚本,它从图像中提取相当好的文本。
我怀疑:有可能训练tesseract只检索某种字典文件中出现的单词/字符吗?
例如,我有一个带有大量人名的.txt,我想训练Tesseract“SONIA”不是“50NlA”而“YANNICK”不是“VANNlD”等......
如果它有所有可能名称的列表,它将能够提供更好的准确性吗?如果原始图像是包含大量人名的文本,以及有关该人员的其他信息,但我只想从ocr检索名称而忽略“嘈杂信息”,我该怎么办?对不起,如果这是一个愚蠢的问题。
我已阅读此https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html并创建了eng.user-words和bazaar文件......下一步应该是什么?既然它给了我相同的输出......
非常感谢你的时间和耐心。