我有一个包含数字和非数字的数据集。有一列名为型号名称,制造年份,变速器类型,燃油类型,发动机容量和燃油消耗。我需要根据上述因素来计算油耗。 我要知道 可以转换非数字值转换为数字值并预测油耗吗?
答案 0 :(得分:0)
您需要将所有字符串值转置为列,并用0或1填充它们,这听起来像一项艰巨的任务,但就像上面提到的G. Anderson一样,有一些库使它变得超级简单。
我将使用get_dummies创建通用函数,如下所示:
def dummy_df(df, todummy_list):
for x in todummy_list:
dummies = pd.get_dummies(df[x], prefix=x, dummy_na=False)
df = df.drop(x, 1)
df = pd.concat([df, dummies], axis=1)
return df
然后调用需要伪造的所有功能的功能
todummy_list = ['MODEL_NAME', 'TRANS_TYPE', 'FUEL_TYPE']
train = dummy_df(train, todummy_list)