Tesseract和Tess4J

时间:2012-09-03 17:09:35

标签: tesseract

我对tesseract培训有疑问。 我目前正在使用Tess4J,以便在我的java程序中集成tesseract。 阅读有关tesseract培训的tesseract wiki页面(http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3),可以使用各种组合和字体的培训图像来训练tesseract。

我是否可以只安装构建这些lang.traineddata文件的“普通”tesseract 3.02(windows或unix)安装,然后将其包含在我的java程序中我的Tess4J包装器使用的tessdata文件夹中。或者Tess4J是否限制了所包含的英语语言数据,以及与该程序捆绑在一起的样本图像?

如果是这样,是否有可能以其他方式将这些包含在我的Tess4J构建中?

1 个答案:

答案 0 :(得分:2)

由于它只是Tesseract OCR引擎的包装器,它接受任何标准问题或自定义训练的数据文件。您可以在https://github.com/tesseract-ocr/tessdata找到标准的受训数据。