标签: python hadoop apache-spark pyspark
我有一个包含许多列的数据集。列类的值为1,2,3,4,... 10。我想对数据进行分区,以便所有具有class = i的行都在一个节点上。 我可以在pyspark 1.3中这样做吗?在pyspark 1.6中,有一个功能(repartition())用于自定义分区,其中我们可以根据列值对数据进行分区。但我们可以在pyspark 1.3中做同样的事情吗?