使用Pyplot和sklearn进行文档绘图

时间:2017-08-14 19:16:42

标签: python matplotlib scikit-learn

我希望深入了解我的文档集的布局。 我使用SKlearn的以下方法将它们转换为数字数组。

  pipeline = Pipeline([("vect", CountVectorizer()), 
                      ("tfidf", TfidfTransformer()),])

  matrix = pipeline.fit_transform(docs).todense()

如果我要将它们聚类,我会使用

    kmeans = KMeans(n_clusters=2).fit(matrix)
    data2D = kmeans.transform(matrix)

然后我会使用pyplot

绘制它们
    plt.scatter(data2D[:,0], data2D[:,1], c = categories)

但是,这会生成数据集的kmeans表示。无论如何总结矩阵中的值并将它们绘制成原样,以便我可以看到它们彼此之间的相对关系,而不使用kmeans。所以我的代表是一致的eveytime。

1 个答案:

答案 0 :(得分:0)

对于那些追随我的人。有问题的原则称为多维缩放。这是一个有用的博客,解释了它背后的原理。 https://de.dariah.eu/tatom/working_with_text.html