scala - Hadoop - 按行计数拆分文件 - Thinbug

Hadoop - 按行计数拆分文件

时间：2016-11-24 08:22:25

标签： scala file hadoop apache-spark hdfs

我的hdfs上有一个320000000行的文件，我想将其拆分为4个文件，文件中最多100000000行。如何按行数拆分文件？

我试图按11重新分区，但分区太大了。我可以通过命令解决吗？或者通过Scala spark中的另一种方式？

1 个答案:

答案 0 :(得分：0)

您可以阅读该文件，然后写入11个文件。