pySpark 1.3中的自定义重新分区数据

时间:2016-04-12 05:24:41

标签: python hadoop apache-spark pyspark

我有一个包含许多列的数据集。列类的值为1,2,3,4,... 10。我想对数据进行分区,以便所有具有class = i的行都在一个节点上。 我可以在pyspark 1.3中这样做吗?在pyspark 1.6中,有一个功能(repartition())用于自定义分区,其中我们可以根据列值对数据进行分区。但我们可以在pyspark 1.3中做同样的事情吗?

0 个答案:

没有答案