如何将Spark DStream拆分为多个子流

时间:2016-03-14 05:32:04

标签: apache-spark stream spark-streaming bigdata

我正在尝试使用apache spark stream。我有一个数据源,来自HDFS的csv文件。

我打算用Spark Stream做下面的事情:

  1. 使用textFileStream
  2. 定期(5分钟)阅读CSV文件
  3. 将DStream拆分为多个子流。
  4. 以下是有关要求的简单示例。

    我们收到了这种格式的CSV文件。

    round_trip_dump

    每隔5分钟,我读取一个这样的文件,然后我想把这个Input DStream分成几个subDStream。每个用户将是一个流。有可能吗?

1 个答案:

答案 0 :(得分:0)

我的意见是,如果您有固定的间隔时间来收集数据,则不需要流媒体功能!当您不知道数据何时到达时,流式传输很有用。 但是,如果您的工作需要是用户在一天/一小时/等时累计(即)累计得分的计算(实时),那么流式传输就是您的解决方案。 问题是:你想在你的文件或电影中找到多个文件中的照片吗?

USR在2个用例中的分组是不同的,如果流式传输更复杂。您必须考虑对组和windowing / slides参数进行何种类型的计算。我建议看this