我们正在使用spark-ml从现有数据构建模型。新数据每天都在发布。
有没有办法我们只能读取新数据并更新现有模型而无需每次都读取所有数据并重新训练?
答案 0 :(得分:4)
这取决于您使用的模型,但对于某些Spark,您确实使用want。您可以查看StreamingKMeans,StreamingLinearRegressionWithSGD,StreamingLogisticRegressionWithSGD以及更广泛的StreamingLinearAlgorithm。
答案 1 :(得分:2)