我正在尝试制作一个文档分类软件,该软件可以将文档分类为金融,政治,娱乐等类别。
我正在使用BBC数据集并制作了TFIDF向量,并使用RandomForest分类器构建了机器学习模型。我也将它保存到一个pickel文件中
现在我不知道如何使用保存的pickel文件并预测新文档的类别。我已经编写了代码以打开一个新文档,并进行所有预处理并获取预处理后的文本。如何使用保存的模型使用此文本对其进行分类?我不知道如何将此文档添加到我现有的TFIDF向量中。
我有一个带有文本文件的文档数组,这是我过去训练模型的方式。
vectorizer = CountVectorizer(max_features=1000 , min_df=5, max_df=0.8)
X = vectorizer.fit_transform(documents).toarray()
tfidfConverter = TfidfTransformer()
X = tfidfConverter.fit_transform(X).toarray()
X_Train , X_Test , Y_Train , Y_Test = train_test_split(X,Y,test_size=0.3 , random_state=0)
classifier = RandomForestClassifier(n_estimators=1000 , random_state=0)
classifier.fit(X_Train,Y_Train)
Y_Predict = classifier.predict(X_Test)
with open('text_classifier','wb') as pickleFile:
pickle.dump(classifier,pickleFile)