如何在Scikit Learn中预测新文档的类别

时间:2019-05-18 08:32:02

标签: python classification

我正在尝试制作一个文档分类软件,该软件可以将文档分类为金融,政治,娱乐等类别。

我正在使用BBC数据集并制作了TFIDF向量,并使用RandomForest分类器构建了机器学习模型。我也将它保存到一个pickel文件中

现在我不知道如何使用保存的pickel文件并预测新文档的类别。我已经编写了代码以打开一个新文档,并进行所有预处理并获取预处理后的文本。如何使用保存的模型使用此文本对其进行分类?我不知道如何将此文档添加到我现有的TFIDF向量中。

我有一个带有文本文件的文档数组,这是我过去训练模型的方式。

vectorizer = CountVectorizer(max_features=1000 , min_df=5, max_df=0.8)
X = vectorizer.fit_transform(documents).toarray()

tfidfConverter = TfidfTransformer()
X = tfidfConverter.fit_transform(X).toarray()

X_Train , X_Test , Y_Train , Y_Test = train_test_split(X,Y,test_size=0.3 , random_state=0)

classifier = RandomForestClassifier(n_estimators=1000 , random_state=0)
classifier.fit(X_Train,Y_Train)

Y_Predict = classifier.predict(X_Test)

with open('text_classifier','wb') as pickleFile:
    pickle.dump(classifier,pickleFile)

0 个答案:

没有答案