句子分类主观性/客观性

时间:2015-04-19 16:34:49

标签: machine-learning nlp classification

我想将句子分类为客观或主观。

例如:

目标:台北101是世界上最高的建筑。

主观:维纳斯威廉姆斯是这十年中最伟大的运动员。

我在考虑使用朴素贝叶斯作为我的分类器。

我应该使用哪些数据进行培训? 我正在考虑客观句子的新闻文章和维基文章。 为了主观性,我考虑使用大量书籍(因为书籍往往更主观)。

这可能有用还是我在考虑这个错误?我能期望什么准确度?哪些数据最适合培训客观和主观?

1 个答案:

答案 0 :(得分:3)

最佳训练数据将是您真正要分类的相同类型的数据(来自同一来源)。如果你训练新闻文章标题("目标")和书籍句子("主观"),那么你真的要学习一个模型来区分新闻文章标题和书的句子。然后,如果您使用此模型将推文(例如)分类为"主观"或者"目标",那么你不应该期待良好的表现。

我建议您手动标记1000个句子,这些句子来自您将被归类为"主观"的实际数据类型。或者"目标"。这将为您提供相关且准确的培训数据,还可以向您介绍您的数据和问题。然后从这1000个句子开始作为训练数据,并测量你的表现。