问题---英语句子的聚类。
数据集---由英语句子组成。
要求---为了我的兴趣,我想在进行聚类之前在2D或3D图形中绘制我的数据集。
到目前为止我做了什么 - 我在python中工作,并使用scikit CountVectorizer成功创建了一个样本特征向量,其中样本是英语句子,特征是这些句子中的单词集。
text=["machine learning", "Natural Language Processing", "Python and Vectors"]
vec = CountVectorizer(tokenizer=MyTokenizer(), analyzer = 'word')
fit_vec = vec.fit_transform(lines)
print fit_vec.toarray()
[[0 0 1 1 0 0 0 0]
[0 1 0 0 1 1 0 0]
[1 0 0 0 0 0 1 1]]
[u'',你'语言',你'学习',你'机器',你'自然',你& #39;处理',你' python,u'向量']
我想将样本和这些矢量用于二维图形,其中y轴是这些矢量,x轴是样本。问题在于沿y轴在单个值中表达这些向量。我想选择一些参考点,我可以用它来计算每个矢量的距离/角度,并沿y轴使用这些值。
我的观察可能是错的,因为我的知识很少。这就是为什么我来到这里进行所有澄清的原因。