我有以下格式的大量数据集(~1000):
data.frame(seq = sample(c("M","K","A","I","G"), 15, replace = T), replicate(10,runif(15)), response = sample(0:1,15,rep=TRUE))
具有10个相关特征和二元响应变量的(蛋白质)序列。
现在我想训练一个从一定数量(2/3)的数据集中学习的模型。是使用rbind将它们放入一个大数据集的唯一方法吗?我更喜欢将它们分开,因为这是顺序数据(序列表现出顺序相关性。附近的x和y值可能是 由于这个原因,也将实现滑动窗口。
我正在使用插入符号,但到目前为止,我还没有找到迭代训练模型的方法。这将是一个开始:
nn = lapply(dataset_list[1:10], function(x) b(x))
b <- function(mydata){
dd <- as.data.frame(mydata)
result <- train(dd[,c(2:11)],dd[,12], error.criterium="LMS", report=TRUE, show.step=100, n.shows=5, method = "nnet" )
return(result)
}