Question

假设我已经计算了文档语料库的TF-IDF分数，从而产生了TF-IDF特征矩阵。如果这些文档的子集属于某个类，我能以某种方式“组合”该子集的分数，以有意义的方式为该类中的每个特征获取单个值吗？

例如，如果我有一个包含1000个文档的语料库，并且corpus[0:200]属于A类，那么我可以使用0到12的tf-idf分数并以某种方式将它们组合起来以便我可以说， “在A类中，特征[3]得分为0.5。”

我希望从语料库中的每个类中提取最有意义的术语。有合理的方法吗？我的问题是否表明对这个概念的误解？任何反馈都非常受欢迎。

Answer 1

您所描述的是＆＃34;功能选择＆＃34;。提取tf-idf分数后，您的文档可能如下所示：

doc1: london:0.2 british:0.5 travel:0.1
doc2: coffee:0.2 brazil:0.1 travel:0.5
doc3: meat:0.8 avian 0.001 birds:0.2
doc4: agriculture:0.5 meat:0.5 chicken:0.01

假设doc1和doc2是0级：＆＃34;城市＆＃34; doc3和doc4是1级：＆＃34;家禽＆＃34;。然后，您可以计算术语mutual information和课程t的预期c。

详细了解如何在here执行基于互信息的功能选择。

语料库中

1 个答案: