当K-means应用于SURF特征时,下一次迭代的平方和的平方和是否大于前一个?

时间:2014-02-10 14:54:13

标签: k-means sift

我正在使用K-Means算法对SIFT矢量要素进行分类。

我的K-Means骨架是

     choose first K points of the data as initial centers

     do{

         // assign each point to the corresponding cluster
         data assignment;

         // get the recalculated center of each cluster
         // suppose point is multi-dimensional data, e.g.(x1, x2, x3...)
         // the center is composed by average value of each dimension.
         // e.g. ((x1 + y1 + ...)/n, (x2 + y2 + ...)/n ...)
         new centroid;

         sum total memberShipChanged;

     }while(some point still changes their membership, i.e. total memberShipChanged != 0)

我们都知道K-Means旨在获得within cluster sum of square的最小值,如下图所示。

我们可以使用do while次迭代来达到目标​​。现在我证明了为什么在每次迭代后within cluster sum of square都变小了。

证明:

为简单起见,我只考虑2次迭代。

数据分配过程之后,每个描述符向量都有其新的最近的聚类中心,因此在此过程之后within cluster sum of square减少。毕竟,within cluster of square是每个向量与一个中心的总和,如果每个向量选择它自己的新最近邻居,毫无疑问总和会减少。

new centroid process 中,我使用算术平均值来计算新的中心向量,一个簇的局部和必须减少。

因此within cluster sum of square在一次迭代中减少两次。经过几次迭代后,每个描述符向量都不会改变其成员资格,within cluster sum of square达到局部最小值。

=============================================== ================================

现在我的问题来了:

我的SURF数据来自3000幅图像,每个描述符向量为128维,总共有1,296,672个向量。在我的代码中,我打印

1)每个clsuter的载体编号

2)在一次迭代中总计memeberShipChanged

3)在一次迭代前的方形的簇总和内。

这是输出:

平方和: 8246977014860

90504 228516 429755 266828 1653711 398631 193081 240072

memberShipChanged: 3501098

平方和: 4462579627000

244521 284626 448700 228211 1361902 303864 317464 311810

memberShipChanged: 975442

平方和: 4561378972772

323746 457785 388988 228431 993328 304606 473668 330546

memberShipChanged: 828709

平方和: 4678353976030

359537 480818 346767 222646 789858 332876 612672 355924

memberShipChanged: 563256

...

我只列出它的4次迭代输出。从输出中,我们可以看到第一次迭代后。 within cluster sum of square实际上从8246977014860减少到4462579627000.但是其他迭代几乎正在使用以最小化它,但我们仍然可以观察到memberShipChanged正在收敛。我不知道为什么会这样。我认为第一次k-means迭代非常重要。

此外,当memberShipChanged仍未收敛到0时,我应该设置空簇的新中心坐标?现在我使用(0,0,0,0,0 ......)。但这是否准确,或许within cluster of sum因此而增加。

0 个答案:

没有答案