假设我已经计算了文档语料库的TF-IDF分数,从而产生了TF-IDF特征矩阵。如果这些文档的子集属于某个类,我能以某种方式“组合”该子集的分数,以有意义的方式为该类中的每个特征获取单个值吗?
例如,如果我有一个包含1000个文档的语料库,并且corpus[0:200]
属于A类,那么我可以使用0到12的tf-idf分数并以某种方式将它们组合起来以便我可以说, “在A类中,特征[3]得分为0.5。”
我希望从语料库中的每个类中提取最有意义的术语。有合理的方法吗?我的问题是否表明对这个概念的误解?任何反馈都非常受欢迎。
答案 0 :(得分:0)
您所描述的是"功能选择"。提取tf-idf分数后,您的文档可能如下所示:
doc1: london:0.2 british:0.5 travel:0.1
doc2: coffee:0.2 brazil:0.1 travel:0.5
doc3: meat:0.8 avian 0.001 birds:0.2
doc4: agriculture:0.5 meat:0.5 chicken:0.01
假设doc1和doc2是0级:"城市" doc3和doc4是1级:"家禽"。然后,您可以计算术语mutual information
和课程t
的预期c
。
详细了解如何在here执行基于互信息的功能选择。