使用等高线从图像中提取文本区域 - Opencv,Python

时间:2017-06-05 19:47:40

标签: python opencv image-processing tesseract

我一直在使用python中的opencv开发名片的OCR项目。

直到现在,我已经能够裁剪图像的卡片了。我试图使用轮廓检测​​裁剪图像中的文本区域。 (即,拍摄Canny图像,从这些边缘找到轮廓并将它们扩大以获得连接的组件,这些组件必须是文本区域)。

当我试图检测闭合的连接组件时,一些轮廓覆盖了除this图像之外的文本的额外部分(如符号)。

因此,在这些文本区域上应用tesseract-ocr会产生不需要的文本(垃圾)以及所需的文本。这是我的OCR的结果。

**(P)(972)656-6074
(F)(972)656-6077
(M)(214)505-8473
5910 N.中央高速公路,Suite1625»
达拉斯,得克萨斯州75206
ken.shulman@capviewpartners.com
WKW™/“
CAPVIEW

EPARTNERS
Ken Shulman,CRE
合作伙伴**

我尝试修改扩张因子,但图像中符号的一部分总是成为文本区域的一部分。

我想尽可能优化预处理,以便tesseract-ocr不会出错。那么如何从文本区域中删除那些额外的部分(符号)还是有另一种方法?

0 个答案:

没有答案