Question

我正在尝试制作一个文档分类软件，该软件可以将文档分类为金融，政治，娱乐等类别。

我正在使用BBC数据集并制作了TFIDF向量，并使用RandomForest分类器构建了机器学习模型。我也将它保存到一个pickel文件中

现在我不知道如何使用保存的pickel文件并预测新文档的类别。我已经编写了代码以打开一个新文档，并进行所有预处理并获取预处理后的文本。如何使用保存的模型使用此文本对其进行分类？我不知道如何将此文档添加到我现有的TFIDF向量中。

我有一个带有文本文件的文档数组，这是我过去训练模型的方式。

vectorizer = CountVectorizer(max_features=1000 , min_df=5, max_df=0.8)
X = vectorizer.fit_transform(documents).toarray()

tfidfConverter = TfidfTransformer()
X = tfidfConverter.fit_transform(X).toarray()

X_Train , X_Test , Y_Train , Y_Test = train_test_split(X,Y,test_size=0.3 , random_state=0)

classifier = RandomForestClassifier(n_estimators=1000 , random_state=0)
classifier.fit(X_Train,Y_Train)

Y_Predict = classifier.predict(X_Test)

with open('text_classifier','wb') as pickleFile:
    pickle.dump(classifier,pickleFile)

如何在Scikit Learn中预测新文档的类别

0 个答案: