我们正在使用mapr,我们想部署一个新的(datalab)集群,我问的是将数据从生产集群传输到datalab集群的最佳方法吗?
我们在两个集群之间使用镜像,但是使用此选项我们只在数据库中读取数据,那么我们如何实时传输数据?
答案 0 :(得分:1)
如果你只想要FS.a ==> FS.b“实时”管道,我所知道的最佳选择是Apache NiFi或StreamSets,因为不需要编码。
Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用。
如果您更注重开发,可以使用Spark或Flink。
DistCP on an Oozie schedule是故障安全解决方案
答案 1 :(得分:1)
您可以使用以下选项:
Distcp.But支持某些协议。Refer here
如果您使用 hbase ,则可以使用快照功能。Refer here
或者,您可以使用database的实用程序来创建dump.For
例如,如果您使用的是mysql,则使用mysqldump -u [username]-p
[pass][dbname]| gzip > file.sql.gz
,然后将其移至其他服务器scp username@<ip>:/<source>/file.sql.gz <destination>/
或者,您可以使用 Apache falcon ,它使用oozie工作流进行复制 集群之间的数据。您可以设置一次工作流程并执行 它