聚类和t-SNE

时间:2019-12-27 17:47:42

标签: cluster-analysis k-means dbscan

我使用doc2vec方法创建了约500个用户,他们的旅行行为为100维向量。

使用tensorboard´s嵌入式投影仪,我可以在3维或2维平面上可视化它们。但是最后,我想创建这些用户的集群。

我考虑使用k-MeansDBSAN,但不确定将哪个数据用作输入。我的原始向量在t-SNE之前(由于尺寸太大,所以不这么认为)或在t-SNE之后(但随后的问题是t-SNE必须“完美”-我们知道处理迭代和困惑并不是一件容易的事,而且我们常常不知道如何解释结果(即使它们是好是坏)。

那么您对如何处理此问题有任何建议吗? 新年快乐,谢谢 罗马

1 个答案:

答案 0 :(得分:0)

如果您不是很忙碌,可以尝试所有这些方法:

1)。直接在100维向量上使用KMeans。仅使用500个数据点,使用sci-kit learn中的标准实现就可以在不到一秒钟的时间内完成训练。

2)。尝试使用PCA将尺寸减小到50(使用此数字),然后应用T-SNE。 sci-kit Learn的T-SNE实施也建议了这一点。在此处应用K均值可能不如在100维空间中应用有益,但也不太可能在数据中产生噪音。

如果您想要快速入门,请选择第一个选项。

优化并迭代!