熊猫将一系列字符串转换为一系列字符串列表(大小为1)以进行编码

时间:2018-10-06 04:52:19

标签: python pandas one-hot-encoding

我知道标题令人困惑,但让我解释一下。我正在尝试为sklearn.MultiLableBinarizer准备“系列”,每个字符串都是我要热编码的单独用户ID。错误地,它遍历字符串的每个字符。进行series.apply(list)的操作相同,将每个字符串拆分为各个字符。如果系列如下:

0 '3436803478'
1 '1230782212'
2 '7320482099'
...

然后我希望输出为

0 ['3436803478']
1 ['1230782212']
2 ['7320482099']
...

代替

0 ['3','4','3','6','8','0','3','4','7','8']
1 ['1','2','3','0','7','8','2','2','1','2']
2 ['7','3','2','0','4','8','2','0','9','9']
...

如果我使用单个值,我只会做ids = [[s] for s in values],但是由于我们正在使用Series和apply(),因此我需要类似函数名的名称,但是对于{{1 }}。 []无效,如here

所述

注意:字符串实际上以整数开头,但是我可以用list()

解决。

1 个答案:

答案 0 :(得分:0)

束缚s.apply(lambda x: [x])效果很好。