我有5500个问题的数据集 - link1和6个类别的关键字 - link2
我想执行两项操作
最初我开始使用性别分类只是为了知道如何进行分类,而且效果非常好。
>>> def gender_features(word):
... return {'last_letter': word[-1]}
>>> gender_features('Shrek')
{'last_letter': 'k'}
>>> from nltk.corpus import names
>>> labeled_names = ([(name, 'male') for name in names.words('male.txt')] +
... [(name, 'female') for name in names.words('female.txt')])
>>> import random
>>> random.shuffle(labeled_names)
>>> featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]
>>> train_set, test_set = featuresets[500:], featuresets[:500]
>>> classifier = nltk.NaiveBayesClassifier.train(train_set)
>>> classifier.classify(gender_features('Neo'))
'male'
>>> classifier.classify(gender_features('Trinity'))
'female'
我以类似的方式尝试对link2
中列出的任何类别的输入词进行分类。但我无法确定我应该在这里使用feature extraction function
。
对1,2行动的任何帮助或建议都会非常明显。