标签: machine-learning scikit-learn
我正在尝试使用Scikit学习预测多类文本分类。
我正在使用sklearn.feature_extraction.text.TfidfVectorizer对文本进行矢量化和转换。显然,训练和测试数据具有非常不同的功能(训练数据> 1000个功能,测试<200个功能)。
因此,我无法使用该模型来预测测试数据。有什么解决方法吗?
差异是如此之大,以至于如果我放弃训练数据中的功能,我认为这会降低预测测试数据的准确性。