我正在使用词袋直方图实现对象识别。直方图由每个图像200个“单词”组成,来自描述符的kmeans。问题是对于大型数据集,比如5000个图像,我们突然在直方图中有200x5000 = 1,000,000个单词。这意味着每个对象将由1,000,000长度的直方图表示。
这在某些方面变得过于庞大和繁琐。有什么事吗?
答案 0 :(得分:0)
通常,您选择的码本大小与训练图像的数量无关。您可以通过在从所有训练数据中提取的一组描述符上运行k-means(或其他一些字典学习方法)来构建代码簿。
因此,在您的示例中,如果您有5000个训练图像,并且从每个图像中提取了大约1000个描述符,那么将为您提供5,000,000个描述符,您可以使用k-means进行聚类。
这可能非常耗时,因此您可以选择使用描述符的随机子集进行聚类。