加入流Apache Spark

时间:2017-04-16 04:08:51

标签: sockets apache-spark tcp

我正在使用Apache Spark Streaming使用TCP连接器来接收数据。 我有一个连接到传感器的python应用程序,并创建一个等待Apache Spark连接的TCP服务器,然后通过此套接字发送json数据。

如何设法加入许多独立的传感器源以将数据发送到Apache Spark上的同一接收器?

1 个答案:

答案 0 :(得分:0)

您似乎需要面向消息的中间件(MOM)或kafka群集来处理实时数据馈送。您的消息生产者可以发送到kafka主题,Spark流可以从该kafka主题接收。这样你可以解耦你的制作人和接收者。 Kafka可以线性扩展并使用它与火花流kafka直接流方法与背压可以提供良好的故障转移弹性。 如果您选择另一个MOM,您可以使用基于火花接收器的方法并将多个流联合起来进行扩展