如何将RDBMS数据与HDFS数据同步

时间:2018-04-26 06:20:21

标签: hadoop apache-kafka hdfs

我有包含300个表的Oracle数据库,并且在这些表上执行所有类型的DML操作(插入/更新/删除)。我已经使用Sqoop将我目前的数据从RDBMS移动到HDFS。现在,无论何时执行任何DML操作,我都希望将实时数据与HDFS数据同步。我可以将Kafka用于此目的,并且它是否支持更新和删除操作。

2 个答案:

答案 0 :(得分:0)

是的,在一定程度上。您可以stream databases into Kafka,但是如何处理更新&删除登陆HDFS取决于您如何从源中获取数据,以及将其登陆到HDFS的原因。 您可以使用HDFS sink从Kafka流式传输到HDFS,但这不会更新/删除HDFS中已存在的数据。为此,您需要一些自定义处理。

将数据登陆到HDFS并需要与数据库实时同步的原因是什么?也许您正在寻找的模式可能不是最适合HDFS(通常不是实时技术)?

答案 1 :(得分:0)

也许您应该重新考虑使用HDFS的选择。例如,Apache Kudu可能更适合您的用例。特别是在考虑之下,您的主要数据源是RDBMS。

更多信息: