标签: apache-spark pyspark spark-streaming
我有兴趣将PySpark用于实时流应用程序,但我很难弄清楚如何将我的数据流导入Spark ......数据通过MQTT协议到达,其中存在Python客户端。理想情况下,我想使用这些客户端的多个实例(每个客户端实现一个迭代器接口)以某种方式将数据流式传输到Spark。
这种事情有可能吗?有关如何制作新流媒体源的任何指示?我现在有点困惑,因为看起来所有现有支持的流源都是围绕Java代码的包装,而我宁愿留在Python中。