如何从图像生成tiff / box文件以在Windows中训练Tesseract

时间:2015-07-31 16:57:41

标签: windows machine-learning ocr tesseract training-data

我试图在Windows中训练Tesseract,为此我需要一对tiff / box文件,我尝试使用jTessBoxEditor创建它,但它不接受图像作为输入。我也尝试过boxFactory,但它没有正常运行。有谁知道从图像创建配对的最佳工具是什么?

由于

2 个答案:

答案 0 :(得分:9)

如果你有jTessBoxEditor,那么你有Tesseract bin文件。转到jTessBoxEditor的 tesseract-ocr 子文件夹并运行以下命令:

  

tesseract.exe D:\ testocr \ TestImage.tif D:\ testocr \ TestImage batch.nochop makebox

它应该生成文件 D:\ testocr \ TestImage.box 。 然后在jTessBoxEditor中,转到Box Editor选项卡并打开图像。盒子文件会自动加载,您可以检查一切是否正常并纠正可能的错误。

答案 1 :(得分:1)

由于无法使用jTessBoxEditor正确打开图像以便使用它们的盒子,我遇到了同样的问题。我意识到一个基本组件是.tif图像的名称和.box文件的名称必须相同,除了不同的扩展名。如果没有这个,jTessBoxEditor将无法知道哪个盒子文件与哪个图像一起使用。因此,使用上面的暗池建议的语法,然后确保两个文件名匹配所示,然后单击"打开" jTessBoxEditor的Box Editor选项卡中的按钮应该可以工作。