我正在尝试从PDF中提取徽标。
我正在应用GaussianBlur,找到轮廓并仅提取图像。但Tesseract无法从该图片中读取文字?
答案 0 :(得分:0)
删除字母周围的框架通常有助于更好地识别文本。因此,如果您使用下面的图像尝试脚本,您将有更好的机会阅读徽标。
话虽如此,您可能会问如何以类似的方式为此徽标和其他徽标实现此目的。我可以想到一些方法,但我认为最通用的解决方案可能是将文本检测算法和OCR结合在一起的管道。
您还可以通过应用一些不同的图像预处理技术来加强您的tesseract游戏。我最近写了一篇非常简单的Tesseract指南和一些图像预处理技术。如果您想查看它们,我在这里与您分享链接:
但是,您也对此特定徽标或字体感兴趣,您也可以按照here给出的说明尝试使用此字体训练tesseract。