标签: python pandas numpy machine-learning data-science
数据集需要标签编码来处理非数值。但是火车和测试数据有一些不相互的价值。正如预期的那样,我得到了这个错误“y包含新标签:”。如何解决此问题并进行标签编码?
答案 0 :(得分:1)
您的测试数据包含一些培训数据中不存在的标签。这些都没用,因为你的模型从未接触过这些值,因此没有从中学到任何东西。
有两种方法可以解决这个问题:
使用pd.get_dummies创建1个热编码,并删除测试数据中不存在的列。
pd.get_dummies
删除变量本身。