我正在尝试根据NLP的词袋模型进行分类。
以下是我的问题:
答案 0 :(得分:2)
您可以使用scikit learn的计数向量化工具首先为文档中的给定单词创建向量,使用它来训练您选择的分类器,然后使用分类器来测试您的数据。
对于训练集,您可以使用矢量化器训练数据,如下所示:
LabeledWords=pd.DataFrame(columns=['word','label'])
LabeledWords.append({'word':'Church','label':'Religion'} )
vectorizer = CountVectorizer()
Xtrain,yTrain=vectorizer.fit_transform(LabeledWords['word']).toarray(),vectorizer.fit_transform(LabeledWords['label']).toarray()
然后,您可以使用上面的矢量化器训练您选择的分类器:
forest = RandomForestClassifier(n_estimators = 100)
clf=forest.fit(Xtrain,yTrain)
为了测试您的数据:
for each_word,label in Preprocessed_list:
test_featuresX.append(vectorizer.transform(each_word),toarray())
test_featuresY.append(label.toarray())
clf.score(test_featuresX,test_featuresY)