应用错误收集

Tf-idf用于SO帖子（其中标记只能出现一次）

时间：2019-03-05 22:16:36

标签： python nlp tf-idf

使用stackoverflow数据转储，我正在分析以pytorch或keras标记的SO帖子。具体来说，我计算每个共同标签出现了多少次（即在pytorch标记的帖子中不是pytorch的标签）。

我想过滤掉太常见的标记，以至于我的分析都失去了真正的意义（例如python标记）。

我正在寻找Tf-idf

TF代表每个文档的单词出现频率。但是，对于给定帖子，每个共同标记只能出现一次（即，您不能对帖子html进行五次标记）。因此，大多数单词的tf为1/5，其他单词的tf为（因为post仅具有4个标签）。在这种情况下，仍然可以进行Tf-Idf吗？

1 个答案:

答案 0 :(得分：0)

如果您想过滤掉很常见的标签，可以使用conditional probability。例如：python在标记为pytorch的帖子上很常见，因此P（python | pytorch）会很高，例如：0.9。您可以找到一个阈值来过滤这些标签。 Association rule learning比上述方法更合适，更复杂。