KNN在飞机上的特征

时间:2017-06-19 19:19:47

标签: machine-learning text-classification

我正在学习一点ML而且我被困了。假设我想使用k个邻居进行一些文本分类。我使用tfidf vectorizer创建一个Matrix term-document,其中每个Cell都存储了tf-idf值。 现在,我如何在飞机上绘制点?我的意思是对于x1-y1,y1是文档1的预测类,但是x?

文档X1中的每个术语都是Vector的一个元素?我的意思是我无法真正理解文本分类中的哪些是飞机上的点以及如何将它们可视化。感谢。

1 个答案:

答案 0 :(得分:0)

一般情况下,人们无法在平面上绘制文本数据,就像绘制一组(x,y)点的方式一样。

在平面上,一个选项是选取x值的两个维度,文档类使用点的颜色或形状表示。这里的x值是你计算的tf-idf值。通常,tf-idf矩阵往往是稀疏的,因此这种可视化可能没用。

通常在文本处理中使用的技术是对tf-idf矩阵执行维数减少,并在缩小的空间中表示文档。 LSA是一种方法。然后将每个文档表示为新空间中的一个点。通过选择前两个维度作为x和y值,现在可以更好地可视化文档。

这只是可视化的一个例子。如果您对要识别的关系类型有了更好的了解,那么可以用它来指导可视化方法的选择。