标签: pyspark one-hot-encoding
我需要对分类变量进行一次热编码"星期几"在我的数据集中,但有时数据集只有一个值,例如"星期三",在这种情况下如何进行一次热编码?
答案 0 :(得分:1)
如果列完全填充了只有值 - 为什么你需要一个热编码,那些列没有告诉任何有用的信息,并且在任何机器学习练习中都是多余的
如果列有2个值,则为Null&星期三,热门编码代码有效,并且会给出一个1/0的二进制列,其中0表示更频繁出现的值(Null / Wednesday)