我目前正在使用tesseract OCR开发一个Android项目。我希望通过添加字典来微调给用户的结果。根据{{3}},最好的方法是
将tessdata / eng.user-words替换为您自己的单词列表 格式 - UTF8文本,每行一个字。
然而,在tessdata文件夹中没有eng.user-words文件,我假设如果我只使用我的字典制作一个文本文件,它将永远不会被使用..
有没有人有类似的经历,知道该怎么办?任何建议都会有很大的帮助。
答案 0 :(得分:9)
如果你正在使用tesseract 3(我假设你是)。 您将不得不重建您的eng.trainddata文件 我打算完全替换word-dawg文件以试图获得更好的结果(即 - 我正在检测的单词总是相同的。)
编译tesseract时,您需要在培训目录中使用combine_tessdata和wordlist2dawg可执行文件。
解压一切(我这样做是为了备份我的eng.word-dawg,你以后也需要unicharset)
./ combine_tessdata -u eng.traineddata
创建wordlist的文本文件(wordlistfile)
创建一个eng.word-dawg
./ wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset
替换word-dawg文件
./ combine_tessdata -o eng.traineddata eng.word-dawg
应该是它。