批量加载时,结构化Spark流文件源load()不支持以逗号分隔的路径

时间:2019-10-03 12:24:07

标签: spark-structured-streaming

我已经构建了一种结构化流解决方案,可以从FileSource读取并写入Solr Sink(使用ForeachWriter)。要求是仅加载 1.最近x天的历史数据,然后继续进行流式处理 2.加载日期范围的数据(以防万一)

hdfs中的数据被划分为source / path / dt = yyyy-mm-dd /

DataFrameReader支持带有逗号分隔的路径列表的load(),而DataStreamReader仅支持单个字符串。它支持glob,这对我们的情况没有帮助。

谁能解释我为什么?

我正在尝试通过同一程序实现批处理(用于历史数据)和流式传输。如果有任何配置可以帮助您,

0 个答案:

没有答案