应用错误收集

操纵位图以获得最佳的ocr检测

时间：2012-10-08 12:27:18

标签： android bitmap tesseract

我正在使用Tesseract ORC库从屏幕上拍摄的图像中提取文本。问题是大多数现代相机在拍照时也会在显示屏上捕捉像素。

无论如何应用像过滤器或threasholding到位图来“提取”文本到更清晰的文本以获得更好的结果吗？

例如，在处理之前： enter image description here

处理后（photoshop中的阈值效果）： enter image description here

1 个答案:

答案 0 :(得分：2)

Tesseract有一个内置的阈值方法TessBaseAPI#ThresholdRect。你试过吗？如果是这样，你有什么问题吗？

如果在某些图片上效果不佳，您可能需要尝试查找一些“均值”或“自适应”阈值算法，因为看起来Tesseract是一个直线阈值，因此可能无法很好地适应更暗/更浅的图像，没有一些调整。