标签: apache-spark apache-spark-sql spark-streaming
我需要通过扩展FileStreamSource创建一个自定义流媒体源。这个想法是重写提交,以便将处理的文件(在这种情况下为S3对象)重命名为具有特定的前缀。但是,我不知道如何使用此自定义源。显然我不想编译Spark-该应用程序将在Amazon EMR集群上运行。
答案 0 :(得分:0)
在项目中创建自定义源之后,您需要在format的{{1}}中注册它:
format
DataStreamReader