Question

我的S3对象将在不同的文件中包含此类数据

metric-name start-time          stop-time           request-id
service-A   12/06/2017 19:00:00 12/06/2017 19:01:00 12345
service-B   12/06/2017 19:01:00 12/06/2017 19:02:00 12345
service-C   12/06/2017 19:02:00 12/06/2017 19:03:00 12345

我想运行一个Spark Streaming作业，将这些数据聚合成类似下面的内容

（基本上，它需要一个指标的开始时间和另一个指标的停止时间来创建聚合指标）

metric-name             start-time          stop-time           request-id
service-A to service-B  12/06/2017 19:00:00 12/06/2017 19:02:00 12345
service-A to service-C  12/06/2017 19:00:00 12/06/2017 19:03:00 12345

我有几个问题：

从S3消费时，Spark作业如何并行化？他们读了吗从不同的文件同时？
有没有办法确定这种分区是如何发生的？
在更传统的编程模型中，我可能会创建一个地图结构并使用它来创建聚合指标......我怎么能考虑到这一点，数据可以传播开来多个S3对象？

Spark Streams：从S3消费时的并行化

0 个答案: