Spark Streams:从S3消费时的并行化

时间:2017-12-07 00:17:30

标签: amazon-web-services apache-spark amazon-s3 spark-streaming

我的S3对象将在不同的文件中包含此类数据

metric-name start-time          stop-time           request-id
service-A   12/06/2017 19:00:00 12/06/2017 19:01:00 12345
service-B   12/06/2017 19:01:00 12/06/2017 19:02:00 12345
service-C   12/06/2017 19:02:00 12/06/2017 19:03:00 12345

我想运行一个Spark Streaming作业,将这些数据聚合成类似下面的内容

(基本上,它需要一个指标的开始时间和另一个指标的停止时间来创建聚合指标)

metric-name             start-time          stop-time           request-id
service-A to service-B  12/06/2017 19:00:00 12/06/2017 19:02:00 12345
service-A to service-C  12/06/2017 19:00:00 12/06/2017 19:03:00 12345

我有几个问题:

  1. 从S3消费时,Spark作业如何并行化?他们读了吗 从不同的文件同时?
  2. 有没有办法确定这种分区是如何发生的?
  3. 在更传统的编程模型中,我可能会创建一个地图 结构并使用它来创建聚合指标......我怎么能 考虑到这一点,数据可以传播开来 多个S3对象?

0 个答案:

没有答案