Question

我对制作tesseract 4的tiff / box文件有一些疑问。在TrainingTesseract 4.00中编写的文档：

制作盒子文件与基础Tesseract一样，可以选择从字体渲染合成训练数据，或标记一些预先存在的图像（例如古代手稿）。

但是它并没有解释如何使用已有的图像进行训练。

我想在tesseract 4（lstm）中训练波斯语。我有一些来自古代手稿的图像，想用图像和文本而不是字体进行训练。因此，我无法使用text2image命令。我知道旧的格式框文件不适用于LSTM培训。

Answer 1

我像你一样努力奋斗，直到找到这个github仓库： https://github.com/OCR-D/ocrd-train

这将使您的生活变得超级轻松。您需要做的就是将图像以tif格式放置，并且文本的图像名称应带有扩展名.gt.txt。它将为您处理所有其余工作。（您可能需要根据本地计算机更新Makefile）

从头训练还是微调取决于您自己的语言，数据和您要解决的问题。对我来说，微调是我所需要的，因为我对当前的性能感到满意，但需要补充一下。

您可能需要的所有有用的详细信息都可以在此answer

中找到

Answer 2

1）使用以下命令制作lstmbox：

tesseract test.tif test-lstmbox  -l eng --psm 6 lstmbox

它将为您制作一个lstmbox，但您必须更正文件夹文件中的字符。

2）您需要足够的数据来进行Scratch的培训，因此我建议进行微调是更好的选择。