标签: apache-spark pyspark spark-structured-streaming
我在Kafka上使用结构化流。 HDFS中存储了大约10种不同的ML_Lib模型。
基于“价值客户”列,必须在行上应用特定模型。
在结构化流上似乎无法进行行数据框操作。 使用for循环会导致代码在单台计算机上运行而不是并行化。
是否有任何groupby操作,然后根据客户组进行过滤并应用特定的模型。