我的数据集如下:
症状(X)::条件(Y)
发烧,头痛,失明::瓦格纳综合征
牙齿疼痛,发烧,尿不湿::布里布里疾病
失明,鼻子流血,发烧::泰勒综合症
其中X是要素,Y是我的标签。我想将X编码为单编码矩阵。熊猫的get_dummies无法在一列中处理多个值,但是如果我将X拆分为多个列,我将失去将症状编码到同一单热点矩阵的能力
有什么想法吗?
答案 0 :(得分:1)
确实,您的要求不是一键编码。对于一种热编码,仅具有值为1的特征,所有其他特征均为0。因此,您可以考虑将X拆分为多个特征,然后在sklearn中使用OrdinalEncoder。
答案 1 :(得分:1)
您可以使用Sklearn CountVectoriser做到这一点,每个单词都是一列,一行观察。如果将二进制标记设置为true,则每行如果存在单词,则该行将以1表示。将binary设置为False,并将其设置为该单词在句子中的出现次数。