应用错误收集

Spark结构化流基于列值应用不同的Mllib模型

时间：2019-02-23 18:58:54

标签： apache-spark pyspark spark-structured-streaming

我在Kafka上使用结构化流。 HDFS中存储了大约10种不同的ML_Lib模型。

基于“价值客户”列，必须在行上应用特定模型。

在结构化流上似乎无法进行行数据框操作。使用for循环会导致代码在单台计算机上运行而不是并行化。

是否有任何groupby操作，然后根据客户组进行过滤并应用特定的模型。

0 个答案:

没有答案