python-2.7 - 在不使用wordlist的情况下为tesseract 3.03生成eng.traineddata

在不使用wordlist的情况下为tesseract 3.03生成eng.traineddata

时间：2017-05-04 11:08:38

标签： python-2.7 tesseract

我正在处理一个处理图像项目。我要做的是从图像中提取文本，我实际上是在Windows上使用python包装器来获取tesseract 3.03并且我已经下载了许多语言的.traineddata文件（英语，frensh，...）。问题是我读到某个地方，tesseract在检测到分隔字符后尝试使用wordlist文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件，因为我希望tesseract返回检测到的句子而不验证单词

1 个答案:

答案 0 :(得分：0)

您可以解压缩.traineddata文件，将空字符组件替换为字典组件，然后重新打包。或者你可以简单地禁用字典。

Disable dictionary in Tesseract

生成巨大词表的算法
“添加”新字体到Tesseract eng.traineddata
tesseract 3.03 - 输入jpg文件
生成Wordlist，Python脚本
恼人的python tesseract错误打开数据文件时出错./teddata/eng.traineddata
Tesseract 3.03编译错误：未在此范围内声明'select'
如何在Tesseract上将新的训练数据合并到eng.traineddata中
在Ubuntu 14.04上训练Tesseract 3.03
Tesseract MacOS错误打开数据文件./tessdata/eng.traineddata
在不使用wordlist的情况下为tesseract 3.03生成eng.traineddata

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？