应用错误收集

文本分类中功能较少的测试数据预测

时间：2019-07-27 02:24:37

标签： machine-learning scikit-learn

我正在尝试使用Scikit学习预测多类文本分类。

我正在使用sklearn.feature_extraction.text.TfidfVectorizer对文本进行矢量化和转换。显然，训练和测试数据具有非常不同的功能（训练数据> 1000个功能，测试<200个功能）。

因此，我无法使用该模型来预测测试数据。有什么解决方法吗？

差异是如此之大，以至于如果我放弃训练数据中的功能，我认为这会降低预测测试数据的准确性。

0 个答案:

没有答案