我正在使用一个热编码器来分类变量。由于生产数据集将有一行作为模型的输入,因此总会有特征失配错误,可以通过@wen在以下技术中提供的技术来解决:
How to one hot encode with pandas on a new dataset?
但是生产数据中是否存在新级别的分类变量,该如何处理。例如之前是A,B,C和D。现在添加了“ E”。 就像我使用上述技术一样,我的输入将具有五个功能,并且同样会出现错误。
您能否通过代码示例指导我如何处理这种新级别的分类方案。
我也该如何腌制/创建一个在Web服务中重用上述技术的函数。