我一直致力于分类来自两位作者的电子邮件。我已成功地使用监督学习以及文本,PCA和SelectPercentile特征选择的TFIDF矢量化来执行相同的操作。我用scikit-learn包来实现同样的目的。
现在我想尝试使用Unsupervised Learning KMeans算法将电子邮件聚类成两组。我创建了数据集,其中我将每个数据点作为python列表中的单行。由于我是无人监督的新手,所以我想询问是否可以应用与监督(TFIDF,PCA和SelectPercentile)中使用的相同的降维工具。如果不是那么他们的对手是什么?我正在使用scikit-learn进行编码。
我在stackoverflow上环顾四周,但无法得到满意的答案。 我真的陷入了困境。
请帮忙!
答案 0 :(得分:1)
以下是可以在无监督学习的情况下应用的降维技术: -
上面提到的一些方法可用于在无监督学习的情况下减少大数据的维数。 您可以详细了解详情here。