我想保存文本分类器。我在我的代码中使用了一个TfidfVectorizer:
vectorizer = TfidfVectorizer(analyzer='word', tokenizer=tokenize, lowercase=True, stop_words='english',
max_features=1100)
corpus_data_features = vectorizer.fit_transform(train_data_df.Text.tolist() + test_data_df.Text.tolist())
# Convering the document term matrix to numpy nd array
corpus_data_features_nd = (corpus_data_features.toarray())
calibrated_svc.fit(X=corpus_data_features_nd[0:len(train_data_df)], y=train_data_df.Domain)
test_pred=calibrated_svc.predict(corpus_data_features_nd[len(train_data_df):])
如此训练我可以保存模型并重复使用它。但是当我想重用模型时,我必须再次创建corpus_data_features:
corpus_data_features = vectorizer.fit_transform(train_data_df.Text.tolist() + test_data_df.Text.tolist())
这种保存分类器无法帮助分类的速度。 如何将corpus_data_features分成两部分并使用保存的vector_data_df向量,然后在加载模型时添加test_data_df?