Hadoop - 按行计数拆分文件

时间:2016-11-24 08:22:25

标签: scala file hadoop apache-spark hdfs

我的hdfs上有一个320000000行的文件, 我想将其拆分为4个文件,文件中最多100000000行。 如何按行数拆分文件?

我试图按11重新分区,但分区太大了。我可以通过命令解决吗?或者通过Scala spark中的另一种方式?

1 个答案:

答案 0 :(得分:0)

您可以阅读该文件,然后写入11个文件。