我正在玩Encog java,用于在非常大的训练数据集上构建回归模型。
我生产的数据集每天接近7000万条记录。我知道Encog很好地利用了多核(从文档和我运行的一些测试)。如果我想用新数据每天训练我的模型,想要了解该怎么办。假设,我得到第1天 - > 70M,第2天 - > 70M等。我可以更新现有模型以仅加载当天的数据吗?我指的是更新,而不是替换。
另外,据我所知,模型只能在一台机器上构建(不像SPARK ML等分布式处理)。这是对的吗?
很想知道业内人士如何看待他们对如何处理类似案件的想法。