应用错误收集

我正在尝试学习一些东西。

我正在使用jTessBoxEditor和Serak。

首先，我创建一些.txt，例如10 000个字符，并用一个空格分隔。我在TIFF / BOX生成器中使用它作为jTessBoxEditor的输入。这为我创建了盒子和.tiff图像。

现在我验证了这些盒子，我发现它们是正确的。所以我在Serak中使用它并训练tesseract，我创建了一些xxx.traineddata。

现在我想验证结果。所以我创建了一个小的.txt，例如100个字符用空格分隔，但所有都非常相似（文件包含类似5 S 5 S 0 O 2 Z等等）。现在我使用与学习相同的方法创建.tiff，所以我使用jTessBoxEditor，相同的字体，我生成新的.tiff文件。比在Serak我尝试OCR这个新的.tiff，结果是0与O混合，5与S混合等等。

我做错了什么？

Tesseract - 培训

1 个答案: