opencv - 从图像中提取线以馈送到OCR - Tesseract

时间：2013-03-28 15:42:17

标签： opencv image-processing tesseract

我正在观看来自pycon http://youtu.be/B1d9dpqBDVA?t=15m34s的演讲，演讲者谈到从图像中提取线条（收据），然后将其提供给OCR引擎，以便更好地提取文本。办法。

我有类似的需求，我将图像传递给OCR引擎。但是，通过从图像中提取线条，我不太明白他的意思。我可以使用哪些开源工具从图像中提取线条？

答案 0 :(得分：3)

查看用于detect the skew angle文本的技术。

组用于隔离图像上的文字（这是有趣的部分）。

从此结果中，您可以轻松检测每行文本的上限/下限。文本本身将位于其中。我之前遇到过类似的问题，the code可能对您有用：

您需要做的就是裁剪每一对线并将其作为图像提供给Tesseract。

答案 1 :(得分：0)

我可以告诉你一个简单的技术来将图像提供给OCR ..只需执行一些操作来获得你的图像的ROI（感兴趣的区域），并在二值化之后定位图像的区域..那么你可能会发现轮廓，并通过保持threasholding值，并设置所需的轮廓区域，您可以将生成的图像提供给OCR :) .. （抱歉解释不好）

答案 2 :(得分：0)

直接回答：您使用Hough Transform从图像中提取线条。您可以找到分析指南here。也可以检测文本行。 Karlphillip的答案也基于Hough变换。

enter image description here