图像处理以改善tesseract OCR

时间:2015-06-30 06:24:59

标签: tesseract

我一直在使用tesseract将文档转换为文本。文档的质量范围非常广泛,我正在寻找有关哪种图像处理可能会改善结果的提示。我注意到高度像素化的文本 - 例如由传真机生成的文本 - 对于tesseract来说特别难以处理 - 可能是角色的所有锯齿状边缘都会混淆形状识别算法。

哪种图像处理技术可以提高准确度?我一直在使用高斯模糊来平滑像素化图像并看到一些小的改进,但我希望有一种更具体的技术可以产生更好的结果。假设一个过滤器被调整为黑白图像,可以平滑不规则的边缘,然后是一个过滤器,可以增加对比度,使角色更加鲜明。

对图像处理新手的任何一般提示?

0 个答案:

没有答案