Tesseract自定义词典

时间:2012-03-05 14:19:37

标签: android dictionary ocr tesseract

我目前正在使用tesseract OCR开发一个Android项目。我希望通过添加字典来微调给用户的结果。根据{{​​3}},最好的方法是

  

将tessdata / eng.user-words替换为您自己的单词列表   格式 - UTF8文本,每行一个字。

然而,在tessdata文件夹中没有eng.user-words文件,我假设如果我只使用我的字典制作一个文本文件,它将永远不会被使用..

有没有人有类似的经历,知道该怎么办?任何建议都会有很大的帮助。

1 个答案:

答案 0 :(得分:9)

如果你正在使用tesseract 3(我假设你是)。 您将不得不重建您的eng.trainddata文件 我打算完全替换word-dawg文件以试图获得更好的结果(即 - 我正在检测的单词总是相同的。)

编译tesseract时,您需要在培训目录中使用combine_tessdata和wordlist2dawg可执行文件。

  1. 解压一切(我这样做是为了备份我的eng.word-dawg,你以后也需要unicharset)

    ./ combine_tessdata -u eng.traineddata

  2. 创建wordlist的文本文件(wordlistfile)

  3. 创建一个eng.word-dawg

    ./ wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset

  4. 替换word-dawg文件

    ./ combine_tessdata -o eng.traineddata eng.word-dawg

  5. 应该是它。