我正在尝试使用Pyspark Windows函数,但是我的partitionBy似乎仅限于前1000行。
当前代码:
window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type'])
objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).where(col('row_number') <= 100))
.where()语句将分组限制为100
。新dataFrame上的.count()返回正确的数字,但是display()限制为1000个结果。
object_typesDF实际上包含约30万行
答案 0 :(得分:1)
那很正常,display
不是spark或python函数。它在您的笔记本环境中是一项功能。我相信您正在使用Zeppelin或Databricks。
如果要检索所有数据,请使用collect
,但它将带回一个python对象。您也可以使用toPandas()
来处理pandas datframe。