我有一个ETL流程,该流程从Kafka读取并写入DynamoDB。在Spark 2.1和更早版本中,我使用了stream.foreachRDD,并且能够将数据批量写入DynamoDB中。 通过Spark 2.3.1结构化流,我找到了Databricks团队的foreach示例:
https://docs.databricks.com/spark/latest/structured-streaming/examples.html#foreach-dynamodb-example
然而,该示例使用了foreach,逐项放置单个项目要赶上大量积压工作确实很慢。如何使用Spark结构化流批量写入DyanmoDB?