LabelEncoding分别用于训练和测试数据

时间:2017-12-14 18:19:05

标签: python pandas numpy machine-learning data-science

数据集需要标签编码来处理非数值。但是火车和测试数据有一些不相互的价值。正如预期的那样,我得到了这个错误“y包含新标签:”。如何解决此问题并进行标签编码?

1 个答案:

答案 0 :(得分:1)

您的测试数据包含一些培训数据中不存在的标签。这些都没用,因为你的模型从未接触过这些值,因此没有从中学到任何东西。

有两种方法可以解决这个问题:

  1. 使用pd.get_dummies创建1个热编码,并删除测试数据中不存在的列。

  2. 删除变量本身。