如何使用foreachBatch代替foreach进行Spark结构化流和DynamoDB?

时间:2018-08-14 14:05:25

标签: apache-spark amazon-dynamodb spark-structured-streaming

我有一个ETL流程,该流程从Kafka读取并写入DynamoDB。在Spark 2.1和更早版本中,我使用了stream.foreachRDD,并且能够将数据批量写入DynamoDB中。 通过Spark 2.3.1结构化流,我找到了Databricks团队的foreach示例:

https://docs.databricks.com/spark/latest/structured-streaming/examples.html#foreach-dynamodb-example

然而,该示例使用了foreach,逐项放置单个项目要赶上大量积压工作确实很慢。如何使用Spark结构化流批量写入DyanmoDB?

0 个答案:

没有答案