我试图编写我的第一个建议模型(Spark 2.0.2),我想知道是否可能, 在初始训练之后,当模型详细说明我的所有rdd时,只使用三角洲为未来的火车。
让我通过一个例子来解释:
问题是,是否有可能以某种方式执行第4步?
答案 0 :(得分:1)
我的理解是,机器学习算法只能用于支持StreamingKMeans或StreamingLogisticRegressionWithSGD等流媒体培训。
引用他们的文件(参见上面的有效参考资料):
(StreamingLogisticRegressionWithSGD)训练或预测流数据的逻辑回归模型。训练使用随机梯度下降来根据来自DStream的每批新传入数据更新模型(请参阅LogisticRegressionWithSGD获取模型方程式)
StreamingKMeans提供了配置流式k-means分析,在流式传输上训练模型以及使用模型对流数据进行预测的方法。
我对这些算法感到担忧的是,它们属于org.apache.spark.mllib.clustering
包,现在已弃用(因为它基于RDD而非基于数据框架)。我不知道他们是否已经使用DataFrame来改进他们的JIRA。