为OCR连接附近的点(提出一些提示,例如使用形态学操作)

时间:2017-11-20 12:15:36

标签: .net opencv tesseract

目标:让软件库(如Tesseract)能够从下图中读取 TMP HW 作品。

我试图找到方法来连接点和#34;,可以这么说,使用OpenCV,但我不确定它是否可能。我有不同颜色的虚线图片,如下图所示,然后我将其转换为灰度图片然后应用canny来查找边缘。我尝试过模糊,精湛,糜烂和扩张的东西,但唉,作为这个东西的新手,看起来我似乎找不到制作这些字母的方法"整个&# 34;有边缘。

虽然它似乎正在使用OpenCV,但它可以创建非常容易识别的字母而不是那么多"噪音" (我认为,如果重要的是,也可以找到一种方法来纠正方向),不知何故在点之间创建边缘以使OCR库更好地工作似乎无法避免。有什么提示吗?

作为参考,我发现了How can i use multiple requests and pass items in between them in scrapy pythonHow to connect broken lines in a binary image using Python/Opencv

<编辑:选择的语言,尽管任何语言的例子等都可能会出现。如果重要的话,我可能会在.NET上工作。

Canny Edge Image - Noise removal

Original 1 transformed with grey scale and canny. Original 1. Slightly wrinkled example.

1 个答案:

答案 0 :(得分:5)

刷新灰色图像,执行morph-openmorph-dilate

您应确保空间宽度(高度)在合适的范围内。

enter image description here