如何在pyspark中设置pivotMaxValues?

时间:2017-03-22 06:52:48

标签: pyspark pyspark-sql

我正在尝试旋转具有超过10000个不同值的列。 Spark中最大不同值的默认限制为10000,我收到此错误

  

数据透视列COLUMN_NUM_2有超过10000个不同的值,这可能表示错误。如果是这样,请将spark.sql.pivotMaxValues设置为至少为pivot列的不同值的数量

如何在PySpark中设置它?

1 个答案:

答案 0 :(得分:1)

您必须在Spark解释器中添加/设置此参数。

我在EMR(AWS)群集上使用Zeppelin笔记本,与您有相同的错误消息,并且在我在解释器中添加参数后它可以正常工作。

希望这会有所帮助......