我正在尝试使用apache spark stream。我有一个数据源,来自HDFS的csv文件。
我打算用Spark Stream做下面的事情:
以下是有关要求的简单示例。
我们收到了这种格式的CSV文件。
round_trip_dump
每隔5分钟,我读取一个这样的文件,然后我想把这个Input DStream分成几个subDStream。每个用户将是一个流。有可能吗?
答案 0 :(得分:0)
我的意见是,如果您有固定的间隔时间来收集数据,则不需要流媒体功能!当您不知道数据何时到达时,流式传输很有用。 但是,如果您的工作需要是用户在一天/一小时/等时累计(即)累计得分的计算(实时),那么流式传输就是您的解决方案。 问题是:你想在你的文件或电影中找到多个文件中的照片吗?
USR在2个用例中的分组是不同的,如果流式传输更复杂。您必须考虑对组和windowing / slides参数进行何种类型的计算。我建议看this