在我的代码中,有一个我从配置单元表中创建的数据框。我使用功能过滤器做一个简单的过滤器。但是结果是随机的:我多次执行包含过滤器的同一个单元,有时返回行,有时不返回。我确定预期结果中只有一行。并且在源文件上没有其他其他作品可以同时工作。
df = spark.sql("select id from hive_table limit 100")
df.filter(col('id') == 27654909)
答案 0 :(得分:1)
我不是pyspark的专家,可以肯定, ,但是您的症状听起来像是 limit ,实际上控制着搜索的深度和 not 返回的最大记录结果数。
由于我想这是在开发环境中,如果删除limit子句,您是否会100%地获得成功?