数据恢复到原始状态意味着什么?

时间:2019-11-14 16:45:11

标签: machine-learning

我已经开始学习机器学习,并且紧跟Aurelien Geron的动手使用Scikit-learn Keras和Tensorflow进行机器学习

在第二章中,我遵循了以下代码

Now you should remove the income_cat attribute so the data is back to its original
state:

for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

我无法理解作者删除属性的意思,并且数据恢复为原始

为澄清起见,这是房价预测问题, median_income 是一项功能。 median_income 已通过 income_cat 进行了分类,并用于分层抽样。

您可以在Jupyter Notebook(由作者提供)的以下链接中从In [23]到In [31]进行检查,以进行进一步说明:

https://github.com/ageron/handson-ml2/blob/master/02_end_to_end_machine_learning_project.ipynb

请问我这个问题似乎很愚蠢。我是新手。

1 个答案:

答案 0 :(得分:0)

在书中说,通过对原始数据进行一些计算,您可以为数据添加新的收入类别“属性”。

然后,您稍后删除此新属性以取回原始数据。删除它的唯一原因是他想找回原始数据。

换句话说,您从每个数据点的x个属性开始(其中一个是“ median_income”),向每个数据点添加了一个新属性(“ income_cat”),因此现在有了x + 1个属性对于每个数据点。然后,他稍后想取回原始数据,就删除了数据点。