结构化流式传输与定期更新的静态数据集

时间:2017-12-13 13:13:14

标签: scala apache-spark spark-structured-streaming

将流式传输与静态数据集合并是结构化流式传输的一项重要功能。但是在每个批次中,数据集都将从数据源中刷新。由于这些源并不总是动态的,因此在指定的时间段(或批次数)内缓存静态数据集会获得性能提升。 在指定的时间段/批次数之后,数据集将从源重新加载,否则从缓存中检索。

在Spark流媒体中,我使用缓存数据集对其进行了管理,并在指定数量的批处理运行后对其进行了解决,但由于某些原因,这种情况不再适用于结构化流式传输。

有关使用结构化流式传输的任何建议吗?

0 个答案:

没有答案