有没有办法在PySpark中读取文本文件时控制分区数

时间:2015-12-14 10:51:22

标签: python apache-spark pyspark rdd

我正在PySpark中使用以下命令读取文本文件

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")

有没有办法指定RDD rating_data_raw应分成的分区数?我想指定大量的分区以实现更高的并发性。

1 个答案:

答案 0 :(得分:5)

正如其他用户所说,您可以在阅读文件时设置将创建的最小分区数,方法是在textFile的可选参数minPartitions中进行设置。

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128)

实现此目的的另一种方法是使用repartitioncoalesce,如果您需要减少可能使用的分区数coalesce,否则您可以使用repartition

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv").repartition(128)