什么是可视化散点图中的词袋的最佳方法

时间:2016-12-06 19:42:07

标签: python database python-2.7 matplotlib data-science

我有一个由大约60000个功能组成的词袋。每个功能代表一个diminsion。我想在缩小的2D空间中表示这个词袋。我该怎么做?

我看到了一个示例here,它看起来更像我想要的但不是真的一样。在示例中,他们有2个变换,我只有一个。因此建议我不想使用管道。下面是我的代码,它永远不会显示任何错误消息:

#myList contents about 800000 words
bag_of_words = vec.fit_transform(myList)
X = bag_of_words.todense() #this is taking for ever
pca = PCA(n_components=2).fit(X)
data2D = pca.transform(X)
plt.scatter(data2D[:,0], data2D[:,1])
plt.show() 

我还没有找到更好的选择,现在看起来我做错了什么。

在散点图中可视化单词包的最佳方法是什么?

bag_of_words看起来像这样:

(0, 548)    3
(0, 4000)   6
(0, 15346)  1
(0, 23299)  1
(0, 22931)  2
(0, 32817)  1
(0, 51733)  1
(0, 38308)  6
(0, 14784)  1
(0, 146873) 1
 ....

0 个答案:

没有答案