如何绘制数据集

时间:2016-08-11 11:21:49

标签: python vector machine-learning nlp

问题---英语句子的聚类。

数据集---由英语句子组成。

要求---为了我的兴趣,我想在进行聚类之前在2D或3D图形中绘制我的数据集。

到目前为止我做了什么 - 我在python中工作,并使用scikit CountVectorizer成功创建了一个样本特征向量,其中样本是英语句子,特征是这些句子中的单词集。

text=["machine learning", "Natural Language Processing", "Python and Vectors"] vec = CountVectorizer(tokenizer=MyTokenizer(), analyzer = 'word') fit_vec = vec.fit_transform(lines) print fit_vec.toarray()

  

[[0 0 1 1 0 0 0 0]

     

[0 1 0 0 1 1 0 0]

     

[1 0 0 0 0 0 1 1]]

     

[u'',你'语言',你'学习',你'机器',你'自然',你& #39;处理',你' python,u'向量']

我想将样本和这些矢量用于二维图形,其中y轴是这些矢量,x轴是样本。问题在于沿y轴在单个值中表达这些向量。我想选择一些参考点,我可以用它来计算每个矢量的距离/角度,并沿y轴使用这些值。

我的观察可能是错的,因为我的知识很少。这就是为什么我来到这里进行所有澄清的原因。

0 个答案:

没有答案