如何加载这个大尺寸 hadoop 文件?
我需要将 hadoop 中的一些文件加载到本地USB。
目录中的一个文件很奇怪,它只有一个名称" - ",并且它的大小超过45G。我首先使用hadoop fs -get
将数据传输到本地 linux VM ,然后使用 WinSCP 将数据加载到本地USB。但我当地的 Linux VM 的容量仅为19G。怎么做?
我正在考虑使用 hadoop 命令将45G文件拆分为较小的文件。但我还没有找到这样的命令。
答案 0 :(得分:1)
您可以尝试以下方法:
hadoop fs -get
命令将所有数据保存到VM的磁盘中。split -b 10240K hadoopfile splitflie
,每10GB分割一次文件。cat splitfile* > hadoopfile
,将其合并为一个文件。