只为一个标签训练nltk分类器

时间:2013-04-26 07:29:54

标签: python machine-learning nlp classification nltk

我刚刚开始使用nltk,我正在关注这本书。第六章是关于文本分类,我对某些事情有点困惑。在示例(名称和电影评论)中,训练分类器以在两个明确定义的标签(男性 - 女性和pos-neg)之间进行选择。但是,如果你只有一个标签,如何训练。

说我有一堆电影情节大纲,我只对从科幻类型中捕捉电影感兴趣。我可以训练分类器只识别科幻小说,例如f.i.如果分类置信度> 80%,然后把它放在科幻小组中,否则,忽略它。

希望有人能澄清,谢谢,

2 个答案:

答案 0 :(得分:0)

您可以简单地训练二元分类器来区分科幻不是科幻

因此,对标记为科幻的电影情节以及所有其他类型的选择进行训练。例如,为其他类型制作相同大小的代表性样本可能是一个好主意,例如并非所有类型都是浪漫喜剧类型。

答案 1 :(得分:0)

我看到两个问题

  1. 如何训练系统?
  2. 系统可以包含“科幻”和“其他”吗?
  3. 2的回答是肯定的。拥有80%置信度阈值的想法也是有道理的,只要你看到你的数据,特征和算法,80%是一个很好的门槛。 (如果没有,如果不是所有的科幻电影都被归类为科幻片,或者降低它,如果有太多的非科幻电影被归类为科幻片,你可能会考虑降低它。)

    1的答案取决于您拥有的数据,您可以提取的功能等.Jared的方法似乎是合理的。和贾里德一样,我也要强调足够和有代表性的数据的重要性。