pyspark窗口函数分区限制为1000行

时间:2019-04-12 14:26:20

标签: pyspark

我正在尝试使用Pyspark Windows函数,但是我的partitionBy似乎仅限于前1000行。

当前代码:

window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type'])
objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).where(col('row_number') <= 100))

.where()语句将分组限制为100

。新dataFrame上的.count()返回正确的数字,但是display()限制为1000个结果。

object_typesDF实际上包含约30万行

1 个答案:

答案 0 :(得分:1)

那很正常,display不是spark或python函数。它在您的笔记本环境中是一项功能。我相信您正在使用Zeppelin或Databricks。

如果要检索所有数据,请使用collect,但它将带回一个python对象。您也可以使用toPandas()来处理pandas datframe。