我在HDFS中有文件需要与Git仓库中的其他文件进行比较。所以,我想将HDFS文件复制到Git仓库中。另一个工具将比较无法与HDFS交谈。
是否可行?
如果是,请告知是否有其他方法可以取出文件?
答案 0 :(得分:0)
我想到了一些想法:
您可以将文件从hdfs复制到本地计算机,然后运行比较文件的工具。
a)您可以使用命令行工具手动执行此操作:
DeviceNotRegistered
b)您可以撰写oozie工作流程,其中包含您的“比较器”的操作。并将使用hadoop fs -copyToLocal <hdfs file> <local file>
从hdfs获取文件。
c)如果您没有可用的命令行工具,可以使用distributed cache
获取文件:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/WebHDFS.html