应用错误收集

如何加载这个大尺寸的hadoop文件？

时间：2016-04-15 17:15:22

标签： linux hadoop

如何加载这个大尺寸 hadoop 文件？

我需要将 hadoop 中的一些文件加载到本地USB。

目录中的一个文件很奇怪，它只有一个名称＆＃34; - ＆＃34;，并且它的大小超过45G。我首先使用hadoop fs -get将数据传输到本地 linux VM ，然后使用 WinSCP 将数据加载到本地USB。但我当地的 Linux VM 的容量仅为19G。怎么做？

我正在考虑使用 hadoop 命令将45G文件拆分为较小的文件。但我还没有找到这样的命令。

1 个答案:

答案 0 :(得分：1)

您可以尝试以下方法：

使用hadoop fs -get命令将所有数据保存到VM的磁盘中。
使用split -b 10240K hadoopfile splitflie，每10GB分割一次文件。
将每个零件文件移动到USB。
在目的地使用cat splitfile* > hadoopfile，将其合并为一个文件。