使用KNN分类器进行数字识别前的预处理

时间:2013-05-06 15:25:01

标签: c++ opencv image-processing image-recognition knn

现在我正在尝试使用OpenCV创建数字识别系统。 WEB中有很多文章和例子(甚至在StackOverflow上)。我决定使用KNN classifier因为这个解决方案在WEB中最受欢迎。我发现database of handwritten digits的训练集为6万例,错误率低于5%。

我使用this tutorial作为如何使用OpenCV使用此数据库的示例。我使用完全相同的技术和测试数据(t10k-images.idx3-ubyte)我有4%的错误率。但是当我尝试对自己的数字进行分类时,我会遇到更大的错误。例如:

  • enter image description here被识别为 7
  • enter image description hereenter image description here被识别为 5
  • enter image description hereenter image description here被识别为 1
  • enter image description here被识别为 8

依此类推(如果需要,我可以上传所有图片)。

正如您所看到的,所有数字都具有良好的质量,并且易于人类识别。

所以我决定在分类之前做一些预处理。从MNIST database site上的表格中我发现人们正在使用纠正去除噪音模糊像素转换技术。不幸的是,几乎所有文章的链接都被打破了。所以我决定自己做这样的预处理,因为我已经知道如何做到这一点。

现在,我的算法如下:

  1. 侵蚀图像(我认为我的原始数字太多了 粗糙)。
  2. 去除小轮廓。
  3. 阈值和模糊图像。
  4. 居中数字(而非移位)。
  5. 我认为在我的情况下不需要去偏移,因为所有数字都是正常旋转的。而且我也不知道如何找到合适的旋转角度。 所以在此之后我得到了这些图片:

    • enter image description here 1
    • enter image description here 3 (以前不是 5
    • enter image description here 5 (不是 8
    • List item 7 (利润!)

    所以,这样的预处理对我有所帮助,但我需要更好的结果,因为在我看来这些数字应该被认可而没有问题。

    任何人都可以通过预处理给我任何建议吗?谢谢你的帮助。

    P.S。我可以上传我的源代码(c ++)。

3 个答案:

答案 0 :(得分:3)

我意识到自己的错误 - 它完全与预处理无关(感谢 @DavidBrown @John )。我使用手写的数字数据集而不是打印(大写)。我没有在网上找到这样的数据库所以我决定自己创建它。我已将我的数据库上传到Google Drive

以下是你如何使用它(训练和分类):

int digitSize = 16;
//returns list of files in specific directory
static vector<string> getListFiles(const string& dirPath)
{
    vector<string> result;
    DIR *dir;
    struct dirent *ent;
    if ((dir = opendir(dirPath.c_str())) != NULL)
    {
        while ((ent = readdir (dir)) != NULL)
        {
            if (strcmp(ent->d_name, ".") != 0 && strcmp(ent->d_name, "..") != 0 )
            {
                result.push_back(ent->d_name);
            }
        }
        closedir(dir);
    }
    return result;
}

void DigitClassifier::train(const string& imagesPath)
{
    int num = 510;
    int size = digitSize * digitSize;
    Mat trainData = Mat(Size(size, num), CV_32FC1);
    Mat responces = Mat(Size(1, num), CV_32FC1);

    int counter = 0;
    for (int i=1; i<=9; i++)
    {
        char digit[2];
        sprintf(digit, "%d/", i);
        string digitPath(digit);
        digitPath = imagesPath + digitPath;
        vector<string> images = getListFiles(digitPath);
        for (int j=0; j<images.size(); j++)
        {
            Mat mat = imread(digitPath+images[j], 0);
            resize(mat, mat, Size(digitSize, digitSize));
            mat.convertTo(mat, CV_32FC1);
            mat = mat.reshape(1,1);
            for (int k=0; k<size; k++)
            {
                trainData.at<float>(counter*size+k) = mat.at<float>(k);
            }
            responces.at<float>(counter) = i;
            counter++;
        }
    }
    knn.train(trainData, responces);
}

int DigitClassifier::classify(const Mat& img) const
{
    Mat tmp = img.clone();

    resize(tmp, tmp, Size(digitSize, digitSize));

    tmp.convertTo(tmp, CV_32FC1);

    return knn.find_nearest(tmp.reshape(1, 1), 5);
}

答案 1 :(得分:1)

5&amp; 6,1和&amp; 7,9和8被认为是相同的,因为类的中心点太相似了。那这个呢 ?

  • 将连接的组件标记方法应用于数字,以获得数字和在这些边界上裁剪图像的真实边界。因此,您将处理更正确的区域,并将中心点标准化。
  • 然后将数字分成水平两部分。 (例如,在划分“8”后,您将有两个圆圈)

结果,“9”和“8”更容易识别以及“5”和“6”。上部相同但下部不同。

答案 2 :(得分:0)

我不能给你一个比你自己的答案更好的答案,但我想提供一个建议。您可以通过以下方式改进您的数字识别系统:

  • 在白色和黑色色块上涂抹骨架化过程

  • 之后,应用距离转换。

通过这种方式,您可以在数字未完全居中时改善分类器的结果,或者从形态上讲,它们不完全相同。