应用错误收集

LabelEncoding分别用于训练和测试数据

时间：2017-12-14 18:19:05

标签： python pandas numpy machine-learning data-science

数据集需要标签编码来处理非数值。但是火车和测试数据有一些不相互的价值。正如预期的那样，我得到了这个错误“y包含新标签：”。如何解决此问题并进行标签编码？

1 个答案:

答案 0 :(得分：1)

您的测试数据包含一些培训数据中不存在的标签。这些都没用，因为你的模型从未接触过这些值，因此没有从中学到任何东西。

有两种方法可以解决这个问题：

使用pd.get_dummies创建1个热编码，并删除测试数据中不存在的列。
删除变量本身。