R:NaiveBayes在大型数据集上递增

时间:2014-08-18 13:23:48

标签: mysql r

我在MySQL数据库中有一个大型数据集(至少11 GB的数据)。我想在整个集合上训练一个NaiveBayes模型,然后测试是针对较小但也非常大的数据集(~3 GB)。

第二部分似乎可行 - 我假设我会在循环中运行以下内容:

data_test <- sqlQuery(con, paste("select * from test_data LIMIT 10000", "OFFSET", (i*10000) ))    
model_pred <- predict(model, data_test, type="raw")

...然后将预测转储回MySQL或CSV。

但是,如何在如此大的数据集上逐步训练我的模型?我在函数(http://www.inside-r.org/packages/cran/e1071/docs/naiveBayes)的R文档中注意到,在预测函数中有一个addtional参数&#34; newdata&#34;这表明增量学习是可能的。然而,预测函数将返回预测而不是新模型。

请给我一个如何逐步训练我的模型的例子。

0 个答案:

没有答案