我目前正在建立回归模型以预测食物的递送时间。
这是带有一些观察结果的数据框
如果您观察到“美食”列包含许多字符串。使用了代码
pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')
这帮助我分割了字符串并进行了热编码,但是,还有一个新的问题需要处理。
合并了数据框和虚拟变量。快餐出现在第一行和第三行。预期的输出是在第一行和第三行中值为1的单个快餐列,但是,创建了两个快餐列。为第一行创建快餐(第4列),为第三行创建快餐(第15列)。
有人可以帮我解决这个问题吗?可以帮助我在第一排和第三排中得到一个值为1的快餐列,其他菜肴也是如此。
答案 0 :(得分:1)
两个Fast Food
的不同之处在于尾随空格。您可能想尝试:
data.Cuisines.str.get_dummies(',\s*')