为什么我们需要在泰坦尼克号测试数据集中删除“ PassengerID”

时间:2019-04-27 00:38:45

标签: data-science

伙计们,我对Titanic kaggle数据集有一个非常快速的问题。这是链接:

    https://github.com/riederleeDEV/Titanic-kaggle- 
    competition/blob/master/titanic-solution.ipynb
    Notice that In[87] drop the "PassengerID" in the test data set

我的意思是为什么我们需要删除它?

1 个答案:

答案 0 :(得分:0)

因为旅客编号没有添加任何值来确定旅客的生存状态。 如果用生存状态绘制乘客ID,您将找不到两者之间的任何关联。 从常识的角度来看,它就像任何演出/航班的票证编号,仅此而已。