如何注册自定义Spark结构化流源

时间:2018-07-12 15:02:29

标签: apache-spark apache-spark-sql spark-streaming

我需要通过扩展FileStreamSource创建一个自定义流媒体源。这个想法是重写提交,以便将处理的文件(在这种情况下为S3对象)重命名为具有特定的前缀。但是,我不知道如何使用此自定义源。显然我不想编译Spark-该应用程序将在Amazon EMR集群上运行。

1 个答案:

答案 0 :(得分:0)

在项目中创建自定义源之后,您需要在format的{​​{1}}中注册它:

DataStreamReader