Tesseract针对非常具体的大型相似图像

时间:2018-07-17 11:10:53

标签: ocr tesseract python-tesseract

我有一个庞大的图像数据集,我想从中读取文本。这些数据在这些图像上始终是相同的形式:有两个温度值和两个速度值。以下是一些示例:

1 5 5 5 5

我认为最大的问题是文本略透明。 我尝试使用tesseract(pytesseract和tesseract.js)来执行此操作,但结果并不是很好。有些东西温度值被解释为正确,但速度值很少是正确的。尤其是找不到该点。

是否有可能通过告诉我文本的模式来优化tesseract的预测,因为它在每个图像中总是相同的。

我已经做的是将白名单配置为

tessedit_char_whitelist = 

您可能还有其他想法吗,也许是如何最好地对该图像进行预处理以获得更好的结果。我已经尝试增加对比度。这带来了一点点改进,但​​仍然不是特别好。

当然,如果您认为其他ocr库和编程语言可以更好地工作,那么我也可以使用它们。

0 个答案:

没有答案