不同的训练集和测试集特征:scikit

时间:2021-07-02 08:21:16

标签: machine-learning svm training-data

我使用 scikit learn 和 OneHotEncoder 训练了一个支持向量机,因为我的训练集的特征不仅仅由数字组成。现在我想使用模型并在另一个数据集上测试它,但是这个数据集没有完全相同的列,有足够的共同点可以尝试,但是 scikit 不允许特征不同(至少根据我所看到的),所以我在各处添加了缺失的列,但由于 OneHotEncoder 根据它不起作用的每个值划分我的列。

我知道,如果我在 X_test 的任何地方都放 0 以匹配列数,代码将起作用,但这不是一个好的解决方案,因为它在机器学习方面没有意义。

此外,由于我在不同的数据集上使用 OneHotEncoder,所以它对每个数据集进行不同的编码,这就产生了一个问题。所以我想问一下,有没有办法使用第一个数据集的 OneHotEncoder 来转换第二个数据集?如果可能,忽略它不起作用的列?

或者有其他方法可以解决我的问题吗?

TL TR:Svm 具有一个用于训练的数据集和一个用于使用不同列进行测试的数据集,我如何使其工作?

0 个答案:

没有答案