我有一个问题需要了解一些基础知识,所以我坚持使用回归树。 我使用rpart分类树来检查环境参数对我测量的树木生长因子的影响。 长话短说:
将数据分成训练和测试数据的目的是什么?(何时)我需要它吗?我的搜索显示了他们要么不做或不做的例子,但我找不到背景故事。是否只是为了验证修剪?
谢谢你!
答案 0 :(得分:1)
在训练模型之前,您需要分成训练和测试数据。训练数据有助于模型学习,而测试数据有助于验证模型。
在运行模型之前完成拆分,并且在进行一些微调或更改时必须重新训练模型。
您可能知道,后期修改的一般过程如下:
1) Split data into training & test (validation) sets
2) Build decision tree from training set
3) For every non-leaf node N, prune the subtree rooted by N and
replace with the majority class. Then test accuracy with a
validation set. This validation set could be the one defined before
or not.
这一切都意味着你可能在正确的轨道上,是的,整个数据集可能已被用于测试修剪的准确性。