我正在尝试将数据管道从Mysql binlogs设置为Redshift。我正在从mysql binlogs(使用工具cannedbeer,来自mypipe的fork)向kafka写入数据,然后使用spark streaming来编写这些消息使用spark redshift连接器进行红移。我面临的问题是同一条消息被多次写入redshift。这是因为在Dstream的foreachRDD方法(写入Redshift的副作用)中失败了。你可以解决一些问题。关于这个问题以及如何解决它。谢谢。
答案 0 :(得分:0)
记录每个部分并查看其重复的位置?我正在使用https://github.com/databricks/spark-redshift从spark簇写入redshift而没有任何问题。