预测新的 vectorized_tf-idf 数据时维度不匹配

时间:2021-04-28 16:15:22

标签: python vectorization predict tf-idf mismatch

我已经训练了四个模型(逻辑回归、朴素贝叶斯、随机森林和 SVM)来对约 13k 文本数据元素进行二元预测。对于上下文,每个元素都是一个零件的短语或描述,标记为它是否是汽车。分割、矢量化和 TF-IDF 训练数据的形状为 (12,918, 16,230)。

我现在想预测新数据。我有一个包含 173 个短语的小数据集。执行向量化和 TF-IDF 后,新矩阵成形为 (173, 492)。

y = df_app['Stripped Lib']
count_vect = CountVectorizer(ngram_range=(1,2))
y_count = count_vect.fit_transfor(y)
y_tfidf = tfidf_transformer(y_count)

# Predict Naive Bayes

nb_pred = mnb.predict(y_tfidf)

这会导致“ValueError:维度不匹配”。当然其他型号也一样。如何解决此矩阵不匹配以预测新数据?

0 个答案:

没有答案
相关问题