使用受监督的术语加权方法和KNN算法

时间:2012-11-27 10:09:28

标签: machine-learning nlp knn document-classification

是否可以使用带有KNN分类器的监督术语加权模型?我想知道如何测试文档的向量,只要测试文档没有标记,监督的术语加权模型需要标记文档来计算权重。有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

是肯定的。您可以根据班级信息使用指标。

  1. 您可以根据列车集(即idf)计算每个术语的基于集合的值。这可能包括基于类的信息,例如每个术语的max.chi ^ 2值。
  2. 对于测试文档,您可以组合这些度量:例如,将TF与IDF(基于列车集)乘以max.chi ^ 2(基于列车)。
  3. 此致