我刚刚阅读了有关使用Mahout进行逻辑回归的this有趣文章。这个教程对我来说很清楚......但真正的用例怎么样?例如,当[web]应用程序首次启动时,需要处理一些训练数据......结果保存在OnlineLogisticRegression
实例中。然后,为了测试新数据,只需要调用OnlineLogisticRegression.classifyFull
并查看概率 - 由0和1之间的值表示 - 数据属于给定的分类。
但是,如果我想在[web]应用程序在线时改进模型并使用其他数据进行训练,该怎么办?我们的想法是每周一次或类似地使用额外的数据训练模型,以提高准确性。实现这种机制的正确方法是什么?是否存在重大性能问题?
答案 0 :(得分:0)
不知道你的用例是什么,但我已经实现了如下。 我用了Naivebayes。使用我的在线模型的当前流程。 现在15天后,我习惯将新的训练数据添加到以前的训练数据中并生成新模型。一旦新模型被创建,它就被cron替换为在线模型。