Question

我已经训练了四个模型（逻辑回归、朴素贝叶斯、随机森林和 SVM）来对约 13k 文本数据元素进行二元预测。对于上下文，每个元素都是一个零件的短语或描述，标记为它是否是汽车。分割、矢量化和 TF-IDF 训练数据的形状为 (12,918, 16,230)。

我现在想预测新数据。我有一个包含 173 个短语的小数据集。执行向量化和 TF-IDF 后，新矩阵成形为 (173, 492)。

y = df_app['Stripped Lib']
count_vect = CountVectorizer(ngram_range=(1,2))
y_count = count_vect.fit_transfor(y)
y_tfidf = tfidf_transformer(y_count)

# Predict Naive Bayes

nb_pred = mnb.predict(y_tfidf)

这会导致“ValueError：维度不匹配”。当然其他型号也一样。如何解决此矩阵不匹配以预测新数据？

预测新的 vectorized_tf-idf 数据时维度不匹配

0 个答案: