Question

我正在尝试使用Pyspark Windows函数，但是我的partitionBy似乎仅限于前1000行。

当前代码：

window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type'])
objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).where(col('row_number') <= 100))

.where（）语句将分组限制为100

。新dataFrame上的.count（）返回正确的数字，但是display（）限制为1000个结果。

object_typesDF实际上包含约30万行

Answer 1

那很正常，display不是spark或python函数。它在您的笔记本环境中是一项功能。我相信您正在使用Zeppelin或Databricks。

如果要检索所有数据，请使用collect，但它将带回一个python对象。您也可以使用toPandas()来处理pandas datframe。

pyspark窗口函数分区限制为1000行

1 个答案: