我在MySQL数据库中有一个大型数据集(至少11 GB的数据)。我想在整个集合上训练一个NaiveBayes模型,然后测试是针对较小但也非常大的数据集(~3 GB)。
第二部分似乎可行 - 我假设我会在循环中运行以下内容:
data_test <- sqlQuery(con, paste("select * from test_data LIMIT 10000", "OFFSET", (i*10000) ))
model_pred <- predict(model, data_test, type="raw")
...然后将预测转储回MySQL或CSV。
但是,如何在如此大的数据集上逐步训练我的模型?我在函数(http://www.inside-r.org/packages/cran/e1071/docs/naiveBayes)的R文档中注意到,在预测函数中有一个addtional参数&#34; newdata&#34;这表明增量学习是可能的。然而,预测函数将返回预测而不是新模型。
请给我一个如何逐步训练我的模型的例子。