使用stackoverflow数据转储,我正在分析以pytorch或keras标记的SO帖子。具体来说,我计算每个共同标签出现了多少次(即在pytorch标记的帖子中不是pytorch的标签)。
我想过滤掉太常见的标记,以至于我的分析都失去了真正的意义(例如python标记)。
我正在寻找Tf-idf
TF代表每个文档的单词出现频率。但是,对于给定帖子,每个共同标记只能出现一次(即,您不能对帖子html进行五次标记)。因此,大多数单词的tf为1/5,其他单词的tf为(因为post仅具有4个标签)。在这种情况下,仍然可以进行Tf-Idf吗?
答案 0 :(得分:0)
如果您想过滤掉很常见的标签,可以使用conditional probability
。例如:python
在标记为pytorch
的帖子上很常见,因此P(python | pytorch)会很高,例如:0.9。您可以找到一个阈值来过滤这些标签。
Association rule learning
比上述方法更合适,更复杂。