如何使用多个字符串热编码数据框列?

时间:2019-12-03 15:51:50

标签: python string pandas dataframe

我目前正在建立回归模型以预测食物的递送时间。

这是带有一些观察结果的数据框

1

如果您观察到“美食”列包含许多字符串。使用了代码

pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')

这帮助我分割了字符串并进行了热编码,但是,还有一个新的问题需要处理。

合并了数据框和虚拟变量。快餐出现在第一行和第三行。预期的输出是在第一行和第三行中值为1的单个快餐列,但是,创建了两个快餐列。为第一行创建快餐(第4列),为第三行创建快餐(第15列)。

2

有人可以帮我解决这个问题吗?可以帮助我在第一排和第三排中得到一个值为1的快餐列,其他菜肴也是如此。

1 个答案:

答案 0 :(得分:1)

两个Fast Food的不同之处在于尾随空格。您可能想尝试:

data.Cuisines.str.get_dummies(',\s*')