为什么降维可以改善电影海报的无监督聚类性能?

时间:2018-10-30 14:59:21

标签: cluster-analysis conv-neural-network cosine-similarity unsupervised-learning dimensionality-reduction

我正在写一篇论文,试图根据电影海报的视觉特征对它们进行聚类。目标是将看起来相似的电影海报聚集在一起。

为了定量描述海报的“外观”,我使用了训练有素的VGG16 CNN为所有海报提取了25088个特征。这些功能存储在具有尺寸(#电影海报,25088 )的矩阵中。

基于我要提取的特征:

  1. 创建类似电影海报的存储桶/群集,可以在推荐方案中从中提取。
  2. 获取与给定海报最相似的 n 个海报列表(例如与马达加斯加海报最相似的 n 个海报)。

我将使用的聚类算法是 K-均值,并且我已经使用 Silhouette Coefficient 评估了聚类的质量。

我尝试了以下方法:

  • 使用具有 K均值(使用余弦相似度)的原始特征进行聚类
  • 在集群之前进行PCA(10个组件)
  • 在集群之前进行NMF(10个组件)
  • 计算相似度矩阵以获取 n 个最相似的电影海报的列表。

我正在尝试找到最佳和最简单的解决方案。因此,我有两个问题:

  1. 与原始数据上的0.01相比,使用PCA和NMF会产生更高的 Silhouette系数(分别为0.2和.35)。那是因为很多差异通过PCA和NMF丢弃了吗?我担心的是这种情况,因为当我减少PCA和NMF中的组件数时,轮廓系数会上升。
  2. 要获得n个最相似的海报的列表,我计算了一个相似度矩阵,从该矩阵打印与给定电影具有最大余弦相似度的电影。有没有一种方法可以不计算相似度矩阵呢?在我看来,使用PCA和NMF的输出矩阵中的信息应该可以做到这一点。

1 个答案:

答案 0 :(得分:0)

您不得比较根据不同数据计算出的轮廓。

但是您每次都可以使用原始数据来计算Silhouette,并且仅使用在投影数据中找到的聚类标签。但由于维数的诅咒,它可能同样不好。

为什么余弦?它已被过度使用,您应该有一个很好的论据来使用它。

PCA尝试保留方差而不是角度。因此余弦和PCA适用于不同的情况。