使用python在文本聚类中绘制单词

时间:2019-03-21 17:39:27

标签: python cluster-analysis unsupervised-learning

我的聚类结果如下图所示。

enter image description here

是否有任何类似于fvid_clusters的库可以产生如下所示的图? (使用PYTHON)

enter image description here

2 个答案:

答案 0 :(得分:1)

图并不完全像您显示的那样,但是我想使用两种工具来探究文本聚类的结果(两个都有针对Python的绑定)。

白蚁http://vis.stanford.edu/papers/termite

Termite

UMAP https://umap-learn.readthedocs.io/en/latest/

这是NMF使用BBC Sports dataset使用NMF进行主题建模的结果。

BBC Sports

答案 1 :(得分:0)

  • 第1步:将单词向量化为向量(每个大小为n)
  • 第2步:使用kmean将它们聚类为k个聚类
  • 第3步:对第1步中生成的向量运行PCA,并将其缩小为2维(例如x,y)
  • 第4步:在位置(x,y)上绘制单词,其中(x,y)是PCA从大小为n的全尺寸向量中减小的维数。为与第2步中确定的聚类对应的单词上色(每个聚类使用一种颜色)。