我对Tesseract OCR置信度值有一些疑问,可以通过在C ++ API中调用AllWordConfidences()
函数来获得。
什么是置信度值(由tesseract API返回)和 tesseract如何计算该值?(根据具体因素)?
我是否有可能改变tesseract的准确度?
任何人都可以帮我解决这些问题吗?谢谢。
答案 0 :(得分:1)
我在其他OCR软件中使用了类似的指标(特别是在ANPR软件中)。如果我没记错,整体上有两个置信因素;一个是0-> 100%置信因子,另一个是0-> X值,用作各种级联置信因子的聚合。
这个值是任意的,所以我建议使用0-> 100%的值。另请注意,每个角色都应该有一个置信因子。
通过评估轮廓线/边缘的清晰程度,字符中检测到的形状与预期形状的接近程度以及选择一个字符与另一个字符的决策接近程度来计算这些指标。在IE中,OCR在'p'和'b'之间选择比'Q'和'O'更容易。
“改善”这些指标的唯一方法是训练探测器!因此准备好拥有大量有效数据。您还需要耐心使用Tesseract培训工具 - 我发现它们是75%的噩梦。
祝你好运!