应用错误收集

问题---英语句子的聚类。

数据集---由英语句子组成。

要求---为了我的兴趣，我想在进行聚类之前在2D或3D图形中绘制我的数据集。

到目前为止我做了什么 - 我在python中工作，并使用scikit CountVectorizer成功创建了一个样本特征向量，其中样本是英语句子，特征是这些句子中的单词集。

text=["machine learning", "Natural Language Processing", "Python and Vectors"] vec = CountVectorizer(tokenizer=MyTokenizer(), analyzer = 'word') fit_vec = vec.fit_transform(lines) print fit_vec.toarray()

[[0 0 1 1 0 0 0 0]

[0 1 0 0 1 1 0 0]

[1 0 0 0 0 0 1 1]]

[u＆＃39;＆＃39;，你＆＃39;语言＆＃39;，你＆＃39;学习＆＃39;，你＆＃39;机器＆＃39;，你＆＃39;自然＆＃39;，你＆＃39;处理＆＃39;，你＆＃39; python，u＆＃39;向量＆＃39;]

我想将样本和这些矢量用于二维图形，其中y轴是这些矢量，x轴是样本。问题在于沿y轴在单个值中表达这些向量。我想选择一些参考点，我可以用它来计算每个矢量的距离/角度，并沿y轴使用这些值。

我的观察可能是错的，因为我的知识很少。这就是为什么我来到这里进行所有澄清的原因。

如何绘制数据集

0 个答案: