用图像而不是字体训练tesseract 4

时间:2018-06-28 10:07:59

标签: tesseract

我对制作tesseract 4的tiff / box文件有一些疑问。 在TrainingTesseract 4.00中编写的文档:

  

制作盒子文件与基础Tesseract一样,可以选择   从字体渲染合成训练数据,或标记一些   预先存在的图像(例如古代手稿)。

但是它并没有解释如何使用已有的图像进行训练。

我想在tesseract 4(lstm)中训练波斯语。我有一些来自古代手稿的图像,想用图像和文本而不是字体进行训练。因此,我无法使用text2image命令。我知道旧的格式框文件不适用于LSTM培训。

  1. 如何为tessearct 4 lstm制作tif / box,然后将其标记为 如何更改tesseract命令?
  2. 我应该使用其他工具来生成Box文件吗(鉴于该波斯语 语言是从右到左)?
  3. 我应该使用Scratch进行微调还是训练?

2 个答案:

答案 0 :(得分:1)

我像你一样努力奋斗,直到找到这个github仓库: https://github.com/OCR-D/ocrd-train

这将使您的生活变得超级轻松。您需要做的就是将图像以tif格式放置,并且文本的图像名称应带有扩展名.gt.txt。它将为您处理所有其余工作。 (您可能需要根据本地计算机更新Makefile)

从头训练还是微调取决于您自己的语言,数据和您要解决的问题。对我来说,微调是我所需要的,因为我对当前的性能感到满意,但需要补充一下。

您可能需要的所有有用的详细信息都可以在此answer

中找到

答案 1 :(得分:0)

1)使用以下命令制作lstmbox

tesseract test.tif test-lstmbox  -l eng --psm 6 lstmbox

它将为您制作一个lstmbox,但您必须更正文件夹文件中的字符。

2)您需要足够的数据来进行Scratch的培训,因此我建议进行微调是更好的选择。