Question

在我的代码中，有一个我从配置单元表中创建的数据框。我使用功能过滤器做一个简单的过滤器。但是结果是随机的：我多次执行包含过滤器的同一个单元，有时返回行，有时不返回。我确定预期结果中只有一行。并且在源文件上没有其他其他作品可以同时工作。

df = spark.sql("select id from hive_table limit 100")

df.filter(col('id') == 27654909)

Answer 1

我不是pyspark的专家，可以肯定，，但是您的症状听起来像是 limit ，实际上控制着搜索的深度和 not 返回的最大记录结果数。

由于我想这是在开发环境中，如果删除limit子句，您是否会100％地获得成功？