在不使用wordlist的情况下为tesseract 3.03生成eng.traineddata

时间:2017-05-04 11:08:38

标签: python-2.7 tesseract

我正在处理一个处理图像项目。我要做的是从图像中提取文本,我实际上是在Windows上使用python包装器来获取tesseract 3.03并且我已经下载了许多语言的.traineddata文件(英语,frensh,...)。问题是我读到某个地方,tesseract在检测到分隔字符后尝试使用wordlist文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件,因为我希望tesseract返回检测到的句子而不验证单词

1 个答案:

答案 0 :(得分:0)

您可以解压缩.traineddata文件,将空字符组件替换为字典组件,然后重新打包。或者你可以简单地禁用字典。

Disable dictionary in Tesseract