我使用doc2vec方法创建了约500个用户,他们的旅行行为为100维向量。
使用tensorboard´s
嵌入式投影仪,我可以在3维或2维平面上可视化它们。但是最后,我想创建这些用户的集群。
我考虑使用k-Means
或DBSAN
,但不确定将哪个数据用作输入。我的原始向量在t-SNE
之前(由于尺寸太大,所以不这么认为)或在t-SNE
之后(但随后的问题是t-SNE必须“完美”-我们知道处理迭代和困惑并不是一件容易的事,而且我们常常不知道如何解释结果(即使它们是好是坏)。
那么您对如何处理此问题有任何建议吗? 新年快乐,谢谢 罗马
答案 0 :(得分:0)
如果您不是很忙碌,可以尝试所有这些方法:
1)。直接在100维向量上使用KMeans。仅使用500个数据点,使用sci-kit learn中的标准实现就可以在不到一秒钟的时间内完成训练。
2)。尝试使用PCA将尺寸减小到50(使用此数字),然后应用T-SNE。 sci-kit Learn的T-SNE实施也建议了这一点。在此处应用K均值可能不如在100维空间中应用有益,但也不太可能在数据中产生噪音。
如果您想要快速入门,请选择第一个选项。
优化并迭代!