具有离散数据集的Spark结构化流

时间:2019-05-08 07:00:53

标签: apache-spark pyspark spark-streaming databricks

通过阅读和试验,似乎在数据帧范围内的操作(​​例如聚合)会影响整个表,而不仅是正在处理的事件中传入的行。

我有一个要求,我想获取事件数据并离散对待数据帧。那就是我只希望对这些数据执行所有操作。

更具体地说,我希望我的笔记本计算机充当服务器来接收来自一个或多个客户端的请求,并仅处理该客户端发送的数据并将结果返回给他们。

我以为我错在流媒体传输中无法实现吗?我看到有一个foreachBatch函数,可以调用编写器。看起来可能可能有效,但是没有有关如何返回转换后的数据帧的示例,它们都围绕着将数据写出而来。

另一种选择也许是自己在单元格中实现套接字接收或事件循环,并以这种方式接受请求,但这似乎有点hacky。

所以我想我的问题是,借助Spark(Databricks),有没有一种方法可以让您的笔记本通过某种方式接收请求,而您仅使用该数据进行处理和响应?

0 个答案:

没有答案