文本分类中功能较少的测试数据预测

时间:2019-07-27 02:24:37

标签: machine-learning scikit-learn

我正在尝试使用Scikit学习预测多类文本分类。

我正在使用sklearn.feature_extraction.text.TfidfVectorizer对文本进行矢量化和转换。显然,训练和测试数据具有非常不同的功能(训练数据> 1000个功能,测试<200个功能)。

因此,我无法使用该模型来预测测试数据。有什么解决方法吗?

差异是如此之大,以至于如果我放弃训练数据中的功能,我认为这会降低预测测试数据的准确性。

0 个答案:

没有答案