应用错误收集

时间：2015-03-18 14:38:14

标签： image-processing machine-learning computer-vision ocr

我想开发一个应用程序来检测扫描文档中的文本，这些文档可能包含混合文本，图形，图像等。我想我可以使用固定大小的滑动窗口技术并使用前馈NN或SVM对这些区域进行分类，但是我坚持使用特征提取阶段常用的特征提取方法使用什么？

答案 0 :(得分：1)

如果所有字符都是机器打印的，那么简单而准确的特征之一就是每个预处理字符图像的标准化密度值。

在那里，您可以将图像分成固定数量的段，并计算每个段的标准化密度值。然后，您将获得每个字符的密度值向量，并继续使用NN或SVM进行分类。

答案 1 :(得分：1)

以下内容对您有所帮助。也许这对你要做的事情来说太过分了，但它的目的是识别图像中的文本区域。

“具有边缘增强最大稳定极值区域的自然图像中的鲁棒文本检测”（http://web.stanford.edu/~hchen2/papers/ICIP2011_RobustTextDetection.pdf）

你可以在github上找到一个相关的项目（我自己没有用过）：https://github.com/subokita/Robust-Text-Detection但是你的示例图片可能值得一试。

有很多关于页面/文本分割的科学论文，在谷歌学者上搜索这些术语，你可以找到更老，更复杂的方法。一个例子是“使用快速特征提取和连通性分析进行页面分割和分类”（http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.527&rep=rep1&type=pdf）