我在数据框中有一列,其值为XS,S,M,L,XL和XXL。 我想要的是在数据帧中有6个新列,如XS,S,M,L,XL和XXL,每个列都有从该列引用的二进制值。这可能吗?
我参加了一次讲课,讲师使用了与此类似的内容,但是我无法真正地指责她是如何做到的,或者讲的是什么方法。
任何帮助,都应感激。
答案 0 :(得分:2)
我认为您要寻找的是One Hot Encoding。
使用scikit-learn实施起来超级容易。只需尝试以下操作:
df = pd.get_dummies(df, prefix=['SIZE'], columns=['SIZE'])
在这里,您必须先导入sci-kitlearn。同样,“ pd”是您具有SIZE列的数据框。放手吧。