我正在处理一个处理图像项目。我要做的是从图像中提取文本,我实际上是在Windows上使用python包装器来获取tesseract 3.03并且我已经下载了许多语言的.traineddata文件(英语,frensh,...)。问题是我读到某个地方,tesseract在检测到分隔字符后尝试使用wordlist文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件,因为我希望tesseract返回检测到的句子而不验证单词
答案 0 :(得分:0)
您可以解压缩.traineddata
文件,将空字符组件替换为字典组件,然后重新打包。或者你可以简单地禁用字典。