Spark结构化流基于列值应用不同的Mllib模型

时间:2019-02-23 18:58:54

标签: apache-spark pyspark spark-structured-streaming

我在Kafka上使用结构化流。 HDFS中存储了大约10种不同的ML_Lib模型。

基于“价值客户”列,必须在行上应用特定模型。

在结构化流上似乎无法进行行数据框操作。 使用for循环会导致代码在单台计算机上运行而不是并行化。

是否有任何groupby操作,然后根据客户组进行过滤并应用特定的模型。

0 个答案:

没有答案