如何识别电影或传记等文档类别

时间:2016-08-04 08:55:04

标签: machine-learning naivebayes supervised-learning document-classification

我目前正在执行将某些文档分类为一些预定义类集的任务。为此,我依赖于Multinomial Naive Bayes,它适用于棒球,运动或太空等大多数类别。

但是,如何查找某些人的电影或传记等类别的文章? MNB主要运行在行话的行话方法。这就是为什么它很容易检测棒球文章,因为它们将包含许多棒球术语。但是,电影或传记文章包含的行话非常少。电影文档仅使用特定于该电影的单词来描述电影或查看电影。因此,一篇关于“少数好人”的文章可能包含许多法律术语,这可能会导致无意中将其标记为“法律”。对于传记而言,它只描述了一个人的生活。

如何对这类文件进行分类?

1 个答案:

答案 0 :(得分:2)

一个好的解决方案是使用命名实体识别半监督方法。例如,您在句子中标记了演员的姓名(使用实体提取半监督方法,检查this),并获取特定实体的计数(例如:在句子中重复的演员(我们的实体)的数量越多,句子与电影有关的越多)。然后将其添加到功能中,因此它对于分类器可能具有代表性和重要性,尝试从您的数据集中找到这些功能并使用这些功能提供分类器

您可以使用Chi2ANOVA F Value

等衡量标准检查任何已添加功能的效果和影响