过滤条件如何在spark数据帧中工作?

时间:2017-01-16 12:53:14

标签: apache-spark apache-spark-sql spark-dataframe

我在hbase中有一个包含10亿条记录的表。我想根据特定条件(按日期)过滤记录。

例如:

Dataframe.filter(col(date) === todayDate)

在将表中的所有记录加载到内存中后,我将应用过滤器,否则我将获得过滤记录?

1 个答案:

答案 0 :(得分:0)

如果你的用例只是从存储中读取,过滤并将其保存在某个地方,如果你有办法将数据直接读入RDD(这会延迟加载记录),那么过滤器将通过读取和写入进行流水线操作。这意味着过滤操作不会等待读取整个数据[简而言之,过滤器是转换,而不是操作]。如果您在过滤器之前有任何操作,则只有在从商店读取整个数据后才会应用过滤器。