我从电影赌场的维基百科文章中提取了关键字并生成了特征集 其中key:value对是关键字:keyword。因此,功能名称和功能值都相同.i已将功能集标记为“DRAMA”,并将“CRIME”标记为元组(功能集,标签)。然后我将标记的功能集作为Naive Bayes的训练输入分类。在此之后,我尝试对新功能集进行分类(例如:{'roxy':'roxy','sports':'sports','wan':'wan'}但忽略了新功能集并且不返回任何标签。
def feature_gen(wiki_dict, mt_movie):
temp = [(wiki_dict, label.strip('\n')) for label in fileinput.input(mt_movie)]
train(temp)
def train(train_sets):
global classifier
classifier = nltk.NaiveBayesClassifier.train(train_sets)
url = [ "http://en.wikipedia.org/wiki/Casino_(film)" ]
mt_list = ['casino.txt']
classifier.classify( {'roxy': 'roxy', 'sports': 'sports', 'wan': 'wan'})