如何加载这个大尺寸的hadoop文件?

时间:2016-04-15 17:15:22

标签: linux hadoop

如何加载这个大尺寸 hadoop 文件?

我需要将 hadoop 中的一些文件加载​​到本地USB。

目录中的一个文件很奇怪,它只有一个名称" - ",并且它的大小超过45G。我首先使用hadoop fs -get将数据传输到本地 linux VM ,然后使用 WinSCP 将数据加载到本地USB。但我当地的 Linux VM 的容量仅为19G。怎么做?

我正在考虑使用 hadoop 命令将45G文件拆分为较小的文件。但我还没有找到这样的命令。

1 个答案:

答案 0 :(得分:1)

您可以尝试以下方法:

  1. 使用hadoop fs -get命令将所有数据保存到VM的磁盘中。
  2. 使用split -b 10240K hadoopfile splitflie,每10GB分割一次文件。
  3. 将每个零件文件移动到USB。
  4. 在目的地使用cat splitfile* > hadoopfile,将其合并为一个文件。