Question

我目前正在建立回归模型以预测食物的递送时间。

这是带有一些观察结果的数据框

如果您观察到“美食”列包含许多字符串。使用了代码

pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')

这帮助我分割了字符串并进行了热编码，但是，还有一个新的问题需要处理。

合并了数据框和虚拟变量。快餐出现在第一行和第三行。预期的输出是在第一行和第三行中值为1的单个快餐列，但是，创建了两个快餐列。为第一行创建快餐（第4列），为第三行创建快餐（第15列）。

有人可以帮我解决这个问题吗？可以帮助我在第一排和第三排中得到一个值为1的快餐列，其他菜肴也是如此。

Answer 1

两个Fast Food的不同之处在于尾随空格。您可能想尝试：

data.Cuisines.str.get_dummies(',\s*')