Question

我正在使用tf-idf和文本分类来对文档中的单词进行排名。我想知道是否可以为每个单词添加tf-idf值来预测新文档的最接近匹配项。我的意思是：

Suppose I had the following tf-idf values for certain words (hypothetical):

    word   Category 1   Category 2   Category 3
    x      0.3          0.6          0.2
    y      0.8          0.4          0.1
    z      0.2          0.5          0.7

在这种情况下，类别是非常长的文档，由某个类别中的所有文档组合而成，在我的案例中，这使语料库的大小从数千减少到仅10。还值得注意的是，我使用次线性TF来减少非常频繁的术语的影响。

如果我有一个新文档，其中包含单词“ xy”，我想的是将每个类别中这些单词的tf-idf值相加，而总和最大的类别将是最接近的匹配项到新文档。在这种情况下，类别1的总和为1.1，类别2的总和为0.3，类别3的总和为0.3，因此与新文档最接近的匹配项是类别1。我还想知道此“算法”是否已经存在并且具有名称。

我在一些测试数据上进行了尝试，它准确地预测了86％的时间。它似乎比使用LogisticRegression更有意义。那么，这是有效的算法吗？

可以添加tf-idf值来查找文档相似性吗？

0 个答案: