Question

我正在尝试使用apache spark stream。我有一个数据源，来自HDFS的csv文件。

我打算用Spark Stream做下面的事情：

以下是有关要求的简单示例。

我们收到了这种格式的CSV文件。

round_trip_dump

每隔5分钟，我读取一个这样的文件，然后我想把这个Input DStream分成几个subDStream。每个用户将是一个流。有可能吗？

Answer 1

我的意见是，如果您有固定的间隔时间来收集数据，则不需要流媒体功能！当您不知道数据何时到达时，流式传输很有用。但是，如果您的工作需要是用户在一天/一小时/等时累计（即）累计得分的计算（实时），那么流式传输就是您的解决方案。问题是：你想在你的文件或电影中找到多个文件中的照片吗？

USR在2个用例中的分组是不同的，如果流式传输更复杂。您必须考虑对组和windowing / slides参数进行何种类型的计算。我建议看this