我是Hadoop管理的新手:)
我有一个8个节点的Apache Hadoop 2.4.1集群,使用了16TB DFS(无法在任何xml文件中找到复制因子),带有MySQL Metastore的Hive 0.13。
目标:将群集上的数据备份到NFS驱动器,卸载群集,安装其他一些发行版(Cloudera,Hortonworks)并将数据从NFS驱动器重新加载到此新群集。 / p>
有两个956GB(大约90亿行)和32Gb(几百万行)的Hive表以及其他一些较小的表。
关注/查询:
如何继续进行此迁移或至少从HDFS到NFS并返回数据?
答案 0 :(得分:0)
以下是我们遵循的步骤:
如果那不是一个选项
答案 1 :(得分:0)
使用Hadoop fs -get
命令将文件传输到NAS。假设NAS安装在其中一个hadoop节点上。
对于HIVE元数据,运行"SHOW CREATE TABLE tablename"
命令以获取可在新集群中运行的create语句。
即使上述步骤符合您的目的。建议的选项是使用DISTCP直接将数据从现有数据复制到新集群。和hive DDL脚本