列车,测试,验证和整合数据,混合数据和测试数据之间有什么区别?

时间:2018-04-27 15:22:01

标签: r machine-learning ensemble-learning train-test-split

帮助我理解这两个片段之间的区别

1)

set.seed(123)
ss <- sample(1:3,size=nrow(dataframe),replace=TRUE,prob=c(0.6,0.2,0.2))
train <- mtcars[ss==1,]
test <- mtcars[ss==2,]
cvr <- mtcars[ss==3,]

当我尝试合奏方法时

2)

# shuffle and split the data into three parts
set.seed(1234)
finaltrain <- finaltrain[sample(nrow(finaltrain)),]
split <- floor(nrow(finaltrain)/3)
ensembleData <- finaltrain[0:split,]
blenderData <- finaltrain[(split+1):(split*2),]
testingData <- finaltrain[(split*2+1):nrow(finaltrain),]

我的问题是在合奏时我做的不同之处是什么?我是初学者,帮助我理解这一点。

1 个答案:

答案 0 :(得分:1)

培训数据集 过去类似于模型,用于训练模型的数据集(在神经网络的情况下权重也有偏差) 那么这个数据的学习模型。

如果您使用的编程语言是python,通常训练数据集将以.csv或.txt格式插入。 你也可以使用表格矩阵作为数据集,但编码的变化应该逐一改变。

验证数据集 用于在训练数据集上对合适模型进行无偏估计的样本数据。 set validation用于评估给定的模型。

测试数据集 什么测试集通常用于评估竞争模型。 例如,如在Kaggle比赛中确定获胜者,验证集与训练集同时发布,并且测试集实际上仅在比赛结束时发布。 这就是测试集上模型决定胜负的结果。 //测试集通常用精心收集的数据填充,涵盖模型将遇到的各种类。