使用多元线性回归中的非数值预测值

时间:2019-01-17 17:27:12

标签: python machine-learning dataset linear-regression

我有一个包含数字和非数字的数据集。有一列名为型号名称,制造年份,变速器类型,燃油类型,发动机容量和燃油消耗。我需要根据上述因素来计算油耗。 我要知道 可以转换非数字值转换为数字值并预测油耗吗?

Click here to visit dataset

1 个答案:

答案 0 :(得分:0)

您需要将所有字符串值转置为列,并用0或1填充它们,这听起来像一项艰巨的任务,但就像上面提到的G. Anderson一样,有一些库使它变得超级简单。

我将使用get_dummies创建通用函数,如下所示:

def dummy_df(df, todummy_list):
    for x in todummy_list:
            dummies = pd.get_dummies(df[x], prefix=x, dummy_na=False)
            df = df.drop(x, 1)
            df = pd.concat([df, dummies], axis=1)
    return df

然后调用需要伪造的所有功能的功能

todummy_list = ['MODEL_NAME', 'TRANS_TYPE', 'FUEL_TYPE']
train = dummy_df(train, todummy_list)

考虑“火车”的是熊猫数据框。