我已经构建了一种结构化流解决方案,可以从FileSource读取并写入Solr Sink(使用ForeachWriter)。要求是仅加载 1.最近x天的历史数据,然后继续进行流式处理 2.加载日期范围的数据(以防万一)
hdfs中的数据被划分为source / path / dt = yyyy-mm-dd /
DataFrameReader支持带有逗号分隔的路径列表的load(),而DataStreamReader仅支持单个字符串。它支持glob,这对我们的情况没有帮助。
谁能解释我为什么?
我正在尝试通过同一程序实现批处理(用于历史数据)和流式传输。如果有任何配置可以帮助您,