应用错误收集

时间：2018-10-16 08:49:40

标签： pandas machine-learning categorical-data one-hot-encoding

我的数据集如下：

症状（X）::条件（Y）
发烧，头痛，失明::瓦格纳综合征
牙齿疼痛，发烧，尿不湿::布里布里疾病
失明，鼻子流血，发烧::泰勒综合症

其中X是要素，Y是我的标签。我想将X编码为单编码矩阵。熊猫的get_dummies无法在一列中处理多个值，但是如果我将X拆分为多个列，我将失去将症状编码到同一单热点矩阵的能力

有什么想法吗？

答案 0 :(得分：1)

确实，您的要求不是一键编码。对于一种热编码，仅具有值为1的特征，所有其他特征均为0。因此，您可以考虑将X拆分为多个特征，然后在sklearn中使用OrdinalEncoder。

答案 1 :(得分：1)

您可以使用Sklearn CountVectoriser做到这一点，每个单词都是一列，一行观察。如果将二进制标记设置为true，则每行如果存在单词，则该行将以1表示。将binary设置为False，并将其设置为该单词在句子中的出现次数。