如何将数据从生产集群传输到datalab集群进行实时数据分析?

时间:2018-01-10 13:31:59

标签: hadoop bigdata mapr

我们正在使用mapr,我们想部署一个新的(datalab)集群,我问的是将数据从生产集群传输到datalab集群的最佳方法吗?

我们在两个集群之间使用镜像,但是使用此选项我们只在数据库中读取数据,那么我们如何实时传输数据?

2 个答案:

答案 0 :(得分:1)

如果你只想要FS.a ==> FS.b“实时”管道,我所知道的最佳选择是Apache NiFi或StreamSets,因为不需要编码。

Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用。

如果您更注重开发,可以使用Spark或Flink。

DistCP on an Oozie schedule是故障安全解决方案

答案 1 :(得分:1)

您可以使用以下选项:

  • Distcp.But支持某些协议。Refer here

  • 如果您使用 hbase ,则可以使用快照功能。Refer here

  • 或者,您可以使用database的实用程序来创建dump.For 例如,如果您使用的是mysql,则使用mysqldump -u [username]-p [pass][dbname]| gzip > file.sql.gz,然后将其移至其他服务器scp username@<ip>:/<source>/file.sql.gz <destination>/

  • 或者,您可以使用 Apache falcon ,它使用oozie工作流进行复制 集群之间的数据。您可以设置一次工作流程并执行 它