apache-spark - 如何使用foreachBatch代替foreach进行Spark结构化流和DynamoDB？ - Thinbug

如何使用foreachBatch代替foreach进行Spark结构化流和DynamoDB？

时间：2018-08-14 14:05:25

标签： apache-spark amazon-dynamodb spark-structured-streaming

我有一个ETL流程，该流程从Kafka读取并写入DynamoDB。在Spark 2.1和更早版本中，我使用了stream.foreachRDD，并且能够将数据批量写入DynamoDB中。通过Spark 2.3.1结构化流，我找到了Databricks团队的foreach示例：

https://docs.databricks.com/spark/latest/structured-streaming/examples.html#foreach-dynamodb-example

然而，该示例使用了foreach，逐项放置单个项目要赶上大量积压工作确实很慢。如何使用Spark结构化流批量写入DyanmoDB？

0 个答案:

没有答案