Question

我在一段时间后发现了一个教程，但无法再次找到它在火车和测试集中创建了一个额外的列，指定了作为训练集的真或假。我有代码但无法找到我找到的地方。

titanic.train$IsTrainingSet <- TRUE
titanic.test$IsTrainingSet <- FALSE

这是好习惯还是坏习惯？我只是很好奇，因为我喜欢在执行数据清理和操作后分割数据是多么容易，如下所示。

titanic.train <- titanic.full[titanic.full$IsTrainingSet == TRUE,]
titanic.test <- titanic.full[titanic.full$IsTrainingSet == FALSE,]

我知道可能会有“做你想做的事情”的答案，但我不知道这是不是因为任何原因在数据中添加另一列的不良做法。

Answer 1

将扩大我的评论。 OP所指的教程就在这里

本教程的作者将两组放在一起查看所有数据。现在是一个警告：在做这样的事情之前你应该检查两个集合是否具有相同的特征（或者有时候说它们来自同一个分布），否则你最终可能会得出非常错误的结论。更好的是比较两组以检查测试集是否代表训练集。这会更有帮助。

有时开发/测试集来自不同的来源，所以要注意做这样的事情，因为它可能很危险。

我希望它有所帮助，翁贝托