加权TF-IDF特征向量中的特定特征,用于k均值聚类和余弦相似性

时间:2015-09-22 14:17:07

标签: python machine-learning scikit-learn k-means tf-idf

我有一组TF-IDF特征向量。我想使用两种方法在数组中找到类似的向量:

  1. 余弦相似度
  2. k-means群集
  3. 使用Scikit Learn,这个过程非常简单。

    现在我想对某些功能进行加权,以便它们比其他功能更能影响结果。例如,我可能想对TF-IDF向量的前100个元素进行加权,以使这些特征比其他特征更能表示相似性。

    如何对我的特征向量中的某些特征进行有意义的加权?对于我上面列出的每个相似度算法,加权某些特征的过程是否相同?

1 个答案:

答案 0 :(得分:0)

据我所知,TFIDF矩阵中的低值表示单词不太重要。因此,一种方法是降低矩阵中您考虑的列的值。

scikit中的数组很稀疏,因此对于测试和调试,您可能希望转换为常规矩阵。我还使用xlsxwriter来概述应用TFIDF和KMeans ++时的实际情况(参见)https://www.dbc-enterprise-it-consulting.com/text-classifier/