我在HDFS中有一个大文件,并希望将其拆分为多个块。
如果文件在我的本地文件系统中,我可以使用split来实现它。
但是,该文件在HDFS中,我不希望(不能)将其复制到本地文件系统中。
如何在HDFS文件中直接使用拆分命令?
答案 0 :(得分:0)
如果文件大小不是很大,HDFS和Unix命令的组合可以完成这项工作。
但是,我不推荐它。 Hadoop框架会将文件拆分为较小的块(Hadoop-1.X的默认大小为64MB,Hadoop-2.X的默认大小为128MB),并在群集中物理分布。
您能描述在HDFS上拆分文件的原因吗?