应用错误收集

我的任务是将带有图像的PDF带到txt或csv文件以存储在数据库中。我试图在附加的图像上使用OCR。

结果与以下一样差：

iisreset.exe

特别重要的是电话号码（944 355019），看起来接近正确，但它仍然有错误的数字，这使整个事情变得毫无用处。

经过多次阅读，我仍然不知道如何训练tesseract。我跟随this instructions等人，这引起了我的怀疑，例如：

它讨论了如何获取要训练的字体样本。我有一个图像，所以如何获得确切的字体以某种方式生成训练数据？
通常情况下，我会将文字移到您希望找到的位置。我只是读到那是因为tesseract在每列的基础上进行OCR（然后我读它并不是因此我感到困惑）。那么，它是哪一个，以及如何使它水平写入？