我已经开始学习机器学习,并且紧跟Aurelien Geron的动手使用Scikit-learn Keras和Tensorflow进行机器学习。
在第二章中,我遵循了以下代码
Now you should remove the income_cat attribute so the data is back to its original
state:
for set_ in (strat_train_set, strat_test_set):
set_.drop("income_cat", axis=1, inplace=True)
我无法理解作者删除属性的意思,并且数据恢复为原始?
为澄清起见,这是房价预测问题, median_income 是一项功能。 median_income 已通过 income_cat 进行了分类,并用于分层抽样。
您可以在Jupyter Notebook(由作者提供)的以下链接中从In [23]到In [31]进行检查,以进行进一步说明:
https://github.com/ageron/handson-ml2/blob/master/02_end_to_end_machine_learning_project.ipynb
请问我这个问题似乎很愚蠢。我是新手。
答案 0 :(得分:0)
在书中说,通过对原始数据进行一些计算,您可以为数据添加新的收入类别“属性”。
然后,您稍后删除此新属性以取回原始数据。删除它的唯一原因是他想找回原始数据。
换句话说,您从每个数据点的x个属性开始(其中一个是“ median_income”),向每个数据点添加了一个新属性(“ income_cat”),因此现在有了x + 1个属性对于每个数据点。然后,他稍后想取回原始数据,就删除了数据点。