Question

我有一个庞大的图像数据集，我想从中读取文本。这些数据在这些图像上始终是相同的形式：有两个温度值和两个速度值。以下是一些示例：

我认为最大的问题是文本略透明。我尝试使用tesseract（pytesseract和tesseract.js）来执行此操作，但结果并不是很好。有些东西温度值被解释为正确，但速度值很少是正确的。尤其是找不到该点。

是否有可能通过告诉我文本的模式来优化tesseract的预测，因为它在每个图像中总是相同的。

我已经做的是将白名单配置为

tessedit_char_whitelist =

您可能还有其他想法吗，也许是如何最好地对该图像进行预处理以获得更好的结果。我已经尝试增加对比度。这带来了一点点改进，但仍然不是特别好。

当然，如果您认为其他ocr库和编程语言可以更好地工作，那么我也可以使用它们。