我正在使用tf-idf和文本分类来对文档中的单词进行排名。我想知道是否可以为每个单词添加tf-idf值来预测新文档的最接近匹配项。我的意思是:
Suppose I had the following tf-idf values for certain words (hypothetical):
word Category 1 Category 2 Category 3
x 0.3 0.6 0.2
y 0.8 0.4 0.1
z 0.2 0.5 0.7
在这种情况下,类别是非常长的文档,由某个类别中的所有文档组合而成,在我的案例中,这使语料库的大小从数千减少到仅10。还值得注意的是,我使用次线性TF来减少非常频繁的术语的影响。
如果我有一个新文档,其中包含单词“ xy”,我想的是将每个类别中这些单词的tf-idf值相加,而总和最大的类别将是最接近的匹配项到新文档。在这种情况下,类别1的总和为1.1,类别2的总和为0.3,类别3的总和为0.3,因此与新文档最接近的匹配项是类别1。我还想知道此“算法”是否已经存在并且具有名称。
我在一些测试数据上进行了尝试,它准确地预测了86%的时间。它似乎比使用LogisticRegression更有意义。那么,这是有效的算法吗?