使用nltk输入文本分类

时间:2014-11-10 10:30:40

标签: python machine-learning nlp classification nltk

我有5500个问题的数据集 - link1和6个类别的关键字 - link2

我想执行两项操作

  1. 根据两个链接中的给定数据集对输入问题的类别进行分类
  2. 对上述link2数据集的输入句子中的命名实体类别进行分类
  3. 最初我开始使用性别分类只是为了知道如何进行分类,而且效果非常好。

    >>> def gender_features(word):
    ...     return {'last_letter': word[-1]}
    >>> gender_features('Shrek')
    {'last_letter': 'k'}
    
    >>> from nltk.corpus import names
    >>> labeled_names = ([(name, 'male') for name in names.words('male.txt')] +
    ... [(name, 'female') for name in names.words('female.txt')])
    >>> import random
    >>> random.shuffle(labeled_names)
    
    >>> featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]
    >>> train_set, test_set = featuresets[500:], featuresets[:500]
    >>> classifier = nltk.NaiveBayesClassifier.train(train_set)
    >>> classifier.classify(gender_features('Neo'))
    'male'
    >>> classifier.classify(gender_features('Trinity'))
    'female'
    

    我以类似的方式尝试对link2中列出的任何类别的输入词进行分类。但我无法确定我应该在这里使用feature extraction function

    对1,2行动的任何帮助或建议都会非常明显。

0 个答案:

没有答案