Question

应用程序的要点是从已经设置的图像列表中识别图像。图像列表已将SIFT描述符提取并保存在文件中。这里没什么有趣的：

std::vector<cv::KeyPoint> detectedKeypoints;
cv::Mat objectDescriptors;

// Extract data
cv::SIFT sift;
sift.detect(image, detectedKeypoints);
sift.compute(image, detectedKeypoints, objectDescriptors);

// Save the file
cv::FileStorage fs(file, cv::FileStorage::WRITE);
fs << "descriptors" << objectDescriptors;
fs << "keypoints" << detectedKeypoints;
fs.release();

然后设备拍照。 SIFT描述符以相同的方式提取。现在的想法是将描述符与文件中的描述符进行比较。我正在使用OpenCV的FLANN匹配器。我试图通过图像来量化相似性。经过整个清单后，我应该有最好的匹配。

const cv::Ptr<cv::flann::IndexParams>& indexParams = new cv::flann::KDTreeIndexParams(1);
const cv::Ptr<cv::flann::SearchParams>& searchParams = new cv::flann::SearchParams(64);

// Match using Flann
cv::Mat indexMat;
cv::FlannBasedMatcher matcher(indexParams, searchParams);
std::vector< cv::DMatch > matches;
matcher.match(objectDescriptors, readDescriptors, matches);

匹配后我明白我得到了特征向量之间最近找到的距离列表。我找到了最小距离，并且使用它我可以数和＃34;良好的匹配＆＃34;甚至得到各自的点列表：

// Count the number of mathes where the distance is less than 2 * min_dist
int goodCount = 0;
for (int i = 0; i < objectDescriptors.rows; i++)
{
    if (matches[i].distance <  2 * min_dist)
    {
        ++goodCount;
        // Save the points for the homography calculation
        obj.push_back(detectedKeypoints[matches[i].queryIdx].pt);
        scene.push_back(readKeypoints[matches[i].trainIdx].pt);
    }
}

我显示代码的简单部分只是为了让这更容易理解，我知道有些内容并不需要在这里。

接下来，我希望简单地计算这样的好比赛的数量就足够了，但事实证明，大多只是指向具有最多描述符的图像。在此之后我尝试的是计算单应性。目的是计算它，看它是否是一个有效的同性恋。希望是一个很好的匹配，只有一个很好的匹配，将有一个良好的转换的单应性。只需在 obj 和场景上使用 cv :: findHomography 即可创建单应性，这些 std :: vector＆lt; CV :: Point2f＆GT; 。我使用在网上找到的一些代码检查了单应性的有效性：

bool niceHomography(cv::Mat H)
{
    std::cout << H << std::endl;

    const double det = H.at<double>(0, 0) * H.at<double>(1, 1) - H.at<double>(1, 0) * H.at<double>(0, 1);
    if (det < 0)
    {
        std::cout << "Homography: bad determinant" << std::endl;
        return false;
    }

    const double N1 = sqrt(H.at<double>(0, 0) * H.at<double>(0, 0) + H.at<double>(1, 0) * H.at<double>(1, 0));
    if (N1 > 4 || N1 < 0.1)
    {
        std::cout << "Homography: bad first column" << std::endl;
        return false;
    }

    const double N2 = sqrt(H.at<double>(0, 1) * H.at<double>(0, 1) + H.at<double>(1, 1) * H.at<double>(1, 1));
    if (N2 > 4 || N2 < 0.1)
    {
        std::cout << "Homography: bad second column" << std::endl;
        return false;
    }

    const double N3 = sqrt(H.at<double>(2, 0) * H.at<double>(2, 0) + H.at<double>(2, 1) * H.at<double>(2, 1));
    if (N3 > 0.002)
    {
        std::cout << "Homography: bad third row" << std::endl;
        return false;
    }

    return true;
}

我不理解这背后的数学因此，在测试时，我有时会用简单的方法检查单应性的决定因素是否为正数。问题是我一直在这里遇到问题。单数形式要么全都不好，要么就不好（当我只检查决定因素时）。

我认为我应该使用单应性，并且对于许多点，只需使用它们在源图像中的位置计算它们在目标图像中的位置。然后我会比较这些平均距离，理想情况下，在正确图像的情况下，我会获得非常明显的较小平均距离。这根本不起作用。所有的距离都是巨大的。我以为我可能已经使用了单应性来计算正确的位置，但是相互切换 obj 和 scene 给出了类似的结果。

我试过的其他东西是SURF描述符而不是SIFT，BFMatcher（蛮力）而不是FLANN，为每个图像获取 n 最小距离，而不是取决于最小距离的数字，或获取距离取决于全局最大距离。这些方法都没有给我带来明确的好结果，我现在感到困惑。

我唯一的下一个策略是锐化图像，甚至使用一些局部阈值或一些用于分割的算法将它们转换为二进制图像。我正在寻找任何人可以在我的工作中看到的任何建议或错误。

我不知道这是否相关，但我添加了一些我正在测试它的图像。很多时候，在测试图像中，大多数SIFT矢量来自帧（高对比度）而不是绘画。这就是为什么我认为锐化图像可能会起作用的原因，但我不想更深入，以防我以前做过的事情是错误的。

图片库是here，其中包含标题中的说明。图像具有相当高的分辨率，请查看以防它可能提供一些提示。

Answer 1

您可以尝试测试匹配时，源图像和目标图像之间的线是否相对平行。如果它不是正确的匹配，那么你会有很多噪音并且这些线条并不是平行的。

参见显示正确匹配的附图（使用SURF和BF） - 所有行大多是平行的（尽管我应该指出这是一个简单的例子）。

enter image description here

Answer 2

你正确的方式。

首先，使用第二个最接近的比率而不是你的＆＃34;良好匹配2 * min_dist＆＃34; https://stackoverflow.com/a/23019889/1983544。

其次，以其他方式使用单应性。当你找到单应性时，你不仅有H，矩阵，而且还有与之一致的对应数量。检查它是否是一个合理的数字，例如＆gt; = 15。如果少于，则不匹配对象。

第三，如果你有一个大的视点变化，SIFT或SURF无法匹配图像。尝试使用MODS（http://cmp.felk.cvut.cz/wbs/这里是Windows和Linux二进制文件，以及纸张描述算法）或ASIFT（慢得多，匹配更糟，但开源）http://www.ipol.im/pub/art/2011/my-asift/

或至少使用MSER或Hessian-Affine检测器代替SIFT（将SIFT保留为描述符）。

使用FLANN匹配从OpenCV SIFT列表中识别图像

2 个答案: