Question

我有如下图像：

我想从中提取文本，应该是ws35，我已经尝试使用 pytesseract 库使用

方法：

pytesseract.image_to_string(Image.open(path))

但是它什么也没返回...我在做错什么吗？如何使用OCR取回文字？我需要对其应用一些过滤器吗？

Answer 1

您可以尝试以下方法：

因为我个人不使用tesseract，所以我无法尝试这张图片，但是在线ocr工具似乎能够正确识别序列（特别是如果使用模糊版本）。

Answer 2

类似于@SilverMonkey的建议：高斯模糊，然后进行Otsu阈值处理。

Answer 3

问题在于此图片质量低且非常嘈杂！甚至专业和企业计划都为此苦苦挣扎

您之前最有可能看到过capatcha，其原因是因为它已将您的答案和图像发送回数据库，然后用于训练计算机读取此类图像。

简短的答案是：pytesseract无法读取该图像中的文本，并且很可能没有模块或专业程序也可以读取它。

Answer 4

您可能需要对其进行一些图像处理/增强。查看this发表的阅读建议并尝试应用。