我正在尝试编写本文的代码:“在自动视听视频结构的无监督挖掘中改进群集选择和事件建模”
它的一部分是关于视频聚类:“视频流被分割成基于颜色直方图的镜头,以检测突然的变化和渐进的过渡。每个产生的镜头由关键帧总结,在中间拍摄镜头反过来表示为每个颜色有8个箱子的RGB直方图。自下而上聚类依赖于使用Ward连杆的512维颜色直方图之间的欧几里德距离。“
我已经完成了这个并达到了一系列这样的数字:
1.0e + 03 *
3.8334
3.9707
3.8887
2.1713
2.5616
2.3764
2.4533
在执行树形图部分后,结果变为:
174.0103
175.0093
176.0093
177.0093
178.0093
178.0093
179.0093
但是根据文章作者给出的玩具示例,结果应该是如下间隔:
{47000,50000},{143400,146400},{185320,187880},{228240,231240},{249440,252000},{346000,449000}
这有什么不对?
答案 0 :(得分:0)
你应该在第一步有512个维度向量,每帧一个这样的向量,或者等价于512 x n矩阵。
然后在第二步中我不认为他们使用普通的内置层次聚类 - 这不是时间意识,并且不会产生间隔,而且它会扩展O(n ^ 3),这真的很糟糕 - 但他们使用定制的聚类算法,受到层次聚类和使用Ward的链接的启发,但是它按时间间隔运行;从单帧开始,但仅加入相邻的区间,而不是像常规层次聚类那样的任意区间。