应用错误收集

这取决于术语的含义。如果 - 像往常一样 - 术语只是一个单词，那么概率模型的工作方式与......简单的加权（即使没有idf！）相同。为什么？因为P(word)的经验估计只是# word / # all_words，而# all_words是常数，那么权重就变为#word，这很简单术语频率 。所以在这个意义上，scikit会做你需要的。

好的，所以也许你想考虑一下背景？那是什么样的背景？您想要独立分析P(pre-word1, word)并将其用作word的加权和吗？那为什么不P(word, post-word1)？为什么不P(pre-word2, pre-word1, word, post-word1, post-word2)等？当没有bigrams时，为什么不包括一些基于unigrams的重量？答案非常简单，一旦你开始使用语言模型作为加权方案，可能引入的数量会逐渐增加，并且没有＃34;典型的＆＃34;方法，值得实施作为标准＆＃34;对于不是NLP库的库。

使用语言模型进行术语加权

1 个答案: