使用spark spark和spark redshift-connector

时间:2015-11-12 07:26:40

标签: apache-spark apache-kafka spark-streaming

我正在尝试将数据管道从Mysql binlogs设置为Redshift。我正在从mysql binlogs(使用工具cannedbeer,来自mypipe的fork)向kafka写入数据,然后使用spark streaming来编写这些消息使用spark redshift连接器进行红移。我面临的问题是同一条消息被多次写入redshift。这是因为在Dstream的foreachRDD方法(写入Redshift的副作用)中失败了。你可以解决一些问题。关于这个问题以及如何解决它。谢谢。

1 个答案:

答案 0 :(得分:0)

记录每个部分并查看其重复的位置?我正在使用https://github.com/databricks/spark-redshift从spark簇写入redshift而没有任何问题。