我对制作tesseract 4的tiff / box文件有一些疑问。 在TrainingTesseract 4.00中编写的文档:
制作盒子文件与基础Tesseract一样,可以选择 从字体渲染合成训练数据,或标记一些 预先存在的图像(例如古代手稿)。
但是它并没有解释如何使用已有的图像进行训练。
我想在tesseract 4(lstm)中训练波斯语。我有一些来自古代手稿的图像,想用图像和文本而不是字体进行训练。因此,我无法使用text2image
命令。我知道旧的格式框文件不适用于LSTM培训。
答案 0 :(得分:1)
我像你一样努力奋斗,直到找到这个github仓库: https://github.com/OCR-D/ocrd-train
这将使您的生活变得超级轻松。您需要做的就是将图像以tif格式放置,并且文本的图像名称应带有扩展名.gt.txt。它将为您处理所有其余工作。 (您可能需要根据本地计算机更新Makefile)
从头训练还是微调取决于您自己的语言,数据和您要解决的问题。对我来说,微调是我所需要的,因为我对当前的性能感到满意,但需要补充一下。
您可能需要的所有有用的详细信息都可以在此answer
中找到答案 1 :(得分:0)
1)使用以下命令制作lstmbox
:
tesseract test.tif test-lstmbox -l eng --psm 6 lstmbox
它将为您制作一个lstmbox
,但您必须更正文件夹文件中的字符。
2)您需要足够的数据来进行Scratch的培训,因此我建议进行微调是更好的选择。