文档X1中的每个术语都是Vector的一个元素?我的意思是我无法真正理解文本分类中的哪些是飞机上的点以及如何将它们可视化。感谢。
答案 0 :(得分:0)
一般情况下,人们无法在平面上绘制文本数据,就像绘制一组(x,y)点的方式一样。
在平面上,一个选项是选取x值的两个维度,文档类使用点的颜色或形状表示。这里的x值是你计算的tf-idf值。通常,tf-idf矩阵往往是稀疏的,因此这种可视化可能没用。
通常在文本处理中使用的技术是对tf-idf矩阵执行维数减少,并在缩小的空间中表示文档。 LSA是一种方法。然后将每个文档表示为新空间中的一个点。通过选择前两个维度作为x和y值,现在可以更好地可视化文档。
这只是可视化的一个例子。如果您对要识别的关系类型有了更好的了解,那么可以用它来指导可视化方法的选择。