我想问你是否知道任何可以检测图像中文本候选的好文本定位算法(对于我的OCR项目)
基本上,在“应用”此算法之后,我希望能够获得具有候选字符的区域(边界框),例如
我正在努力寻找一些我可能会使用的东西,但即使我发现它最有可能出现在极其困难的论文中,需要应用非常高的数学。我已经遇到了MSER(Maximally Stable Extremal Regions)或Gradient Vector Flow方法,但对我来说这两者都很难(尽管我对数学有很多了解,但我仍然很难搞清楚这些)
答案 0 :(得分:3)
这些可能会给你一些指示:
答案 1 :(得分:3)
您可以使用Opencv3.0"场景文本检测"功能。它基于类特定的极值区域进行场景文本检测'。它还有示例代码。
您可以在以下网址找到它们:
[1] http://docs.opencv.org/3.0-beta/modules/text/doc/erfilter.html
[2] https://github.com/Itseez/opencv_contrib/blob/master/modules/text/samples/textdetection.cpp
<强>论文:强>
[Neumann12] Neumann L.,Matas J。:实时场景文本定位和识别,CVPR 2012.该论文可在http://cmp.felk.cvut.cz/~neumalu1/neumann-cvpr2012.pdf
在线获取。[Neumann11] Neumann L.,Matas J。:使用经过有效修剪的穷举搜索的真实世界图像中的文本定位,ICDAR 2011.该论文可在http://cmp.felk.cvut.cz/~neumalu1/icdar2011_article.pdf
在线获取。[Gomez13] Gomez L.和Karatzas D。:自然场景中的多脚本文本提取,ICDAR 2013.该论文可在http://158.109.8.37/files/GoK2013.pdf
在线获取。[Gomez14] Gomez L.和Karatzas D。:用于多脚本和任意面向场景文本提取的快速分层方法,arXiv:1407.7504 [cs.CV]。该论文可在http://arxiv.org/abs/1407.7504
在线获取答案 2 :(得分:1)
我不知道任何简单或简单的算法。但是,我们使用名为leadtools的第三方工具包来执行类似的行为。我知道它可以自动找到文本区域并识别它们。有关详细信息,请参阅此帮助主题,其中包含代码段:
此外,您可以在OCR之前对图像进行一些图像处理,因为图像中的颜色会降低OCR识别过程的准确性和性能。