android - Tesseract自定义词典

时间：2012-03-05 14:19:37

标签： android dictionary ocr tesseract

我目前正在使用tesseract OCR开发一个Android项目。我希望通过添加字典来微调给用户的结果。根据{{3}}，最好的方法是

将tessdata / eng.user-words替换为您自己的单词列表格式 - UTF8文本，每行一个字。

然而，在tessdata文件夹中没有eng.user-words文件，我假设如果我只使用我的字典制作一个文本文件，它将永远不会被使用..

有没有人有类似的经历，知道该怎么办？任何建议都会有很大的帮助。

答案 0 :(得分：9)

如果你正在使用tesseract 3（我假设你是）。您将不得不重建您的eng.trainddata文件我打算完全替换word-dawg文件以试图获得更好的结果（即 - 我正在检测的单词总是相同的。）

编译tesseract时，您需要在培训目录中使用combine_tessdata和wordlist2dawg可执行文件。

解压一切（我这样做是为了备份我的eng.word-dawg，你以后也需要unicharset）

./ combine_tessdata -u eng.traineddata
创建wordlist的文本文件（wordlistfile）
创建一个eng.word-dawg

./ wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset
替换word-dawg文件

./ combine_tessdata -o eng.traineddata eng.word-dawg

应该是它。