标签: apache-spark spark-structured-streaming
我想使用Spark结构化流技术过滤事件中心流以分离不同类型的对象(具有不同架构的JSON对象),并将每种对象类型写入其自己的文件存储中。
如果我认为唯一受支持的方法是创建ForeachWriter,缓存微批处理并进行处理方法的过滤和写入,我是否正确?
ForeachWriter
我不想为每个过滤后的写入流创建一个读取流,这将严重阻碍事件中心的出口容量。