我正在尝试旋转具有超过10000个不同值的列。 Spark中最大不同值的默认限制为10000,我收到此错误
数据透视列
COLUMN_NUM_2
有超过10000个不同的值,这可能表示错误。如果是这样,请将spark.sql.pivotMaxValues设置为至少为pivot列的不同值的数量
如何在PySpark中设置它?
答案 0 :(得分:1)
您必须在Spark解释器中添加/设置此参数。
我在EMR(AWS)群集上使用Zeppelin笔记本,与您有相同的错误消息,并且在我在解释器中添加参数后它可以正常工作。
希望这会有所帮助......