是否可以用作者信息补充朴素贝叶斯文本分类算法?

时间:2013-08-22 21:20:20

标签: text machine-learning nlp classification bayesian

我正在开展一个文本分类项目,我正在尝试将主题分类分配给国会记录中的演讲。

使用国会法案项目(http://congressionalbills.org/)中的主题代码,我标记了提及特定法案的演讲,这些议案属于议案主题。我正在使用它作为模型的“训练集”。

我有一个“香草”朴素贝叶斯分类器工作得很好,但我总是觉得我可以通过整合有关正在发表演讲的国会议员的信息(例如某些成员很多)从算法中获得更好的准确性更有可能谈论外交政策而不是其他人。)

一种可能性是将NB分类器中的先验(通常定义为具有给定分类的训练集中的文档的比例)替换为演讲者先前观察到的演讲。

这值得追求吗?是否存在遵循同样逻辑的现有方法?我对Latent Dirichlet Allocation模型中出现的“作者 - 主题模型”有点熟悉,但我喜欢NB模型的简单性。

1 个答案:

答案 0 :(得分:0)

无需修改任何内容,只需将此信息添加到Naive Bayes,它就可以正常使用。

正如之前在评论中提到的那样 - 不要改变任何先验 - 先验概率为P(class),这与实际特征有

只需在计算中添加与作者身份相对应的其他功能,例如: “作者:AUTHOR”和往常一样训练朴素贝叶斯,即。为每个P(class|author:AUTHOR)class计算AUTHOR,然后在分类过程中使用它。如果您当前的表示是一个单词包,则添加“人为”单词就足够了形成“作者:作者”。

另一种选择是为每个AUTHOR训练独立的分类器,例如,它可以捕获特定于人的语言类型 - 只有在谈论“自然”时才会使用大量单词“环境”,而其他人只是喜欢在每个演讲中添加这个词“哦,在我们当地的......环境中”。独立的NB将捕获这些现象。