如何从AWS SQS读取流数据集?

时间:2017-12-11 15:00:46

标签: scala amazon-web-services apache-spark amazon-sqs spark-structured-streaming

对于Spark流媒体,有connectors可以实现此功能。

不幸的是,对于Spark结构化流媒体我找不到任何技术,因为它是一种新技术。有没有办法使用Spark流连接器连接到源?或者有没有办法创建一个类似于在spark streaming应用程序中创建一个自定义连接器的方式?

2 个答案:

答案 0 :(得分:1)

首先,与使用专注于流式数据处理,存储和分析的AWS Kinesis Streams,Kinesis Firehorse和Kinesis Analytics相比,AWS SQS可能不适合流媒体要求。

您可以通过事件连接Spark Streaming + Kinesis Integration配置Spark Streaming以从Kinesis接收数据。

我不认为AWS SQS目前有一个火花流连接器,但您应该能够使用AWS SQS SDK编写自定义连接器,以便从队列中轮询数据并推送到Spark流。< / p>

答案 1 :(得分:0)

  

有没有办法使用火花串流连接器连接到源?

不知道。

  

或者有没有办法创建一个类似于在火花流应用程序中创建的自定义连接器?

由于没有AWS SQS的经验,我认为如果Spark Streaming支持它,Spark Structured Streaming也应该。

流式传输Source界面允许您实现自定义数据源以加载流数据集,也可能来自AWS SQS。

使用KafkaSourceTextSocketSource作为模板。