Question

我在hbase中有一个包含10亿条记录的表。我想根据特定条件（按日期）过滤记录。

例如：

Dataframe.filter(col(date) === todayDate)

在将表中的所有记录加载到内存中后，我将应用过滤器，否则我将获得过滤记录？

Answer 1

如果你的用例只是从存储中读取，过滤并将其保存在某个地方，如果你有办法将数据直接读入RDD（这会延迟加载记录），那么过滤器将通过读取和写入进行流水线操作。这意味着过滤操作不会等待读取整个数据[简而言之，过滤器是转换，而不是操作]。如果您在过滤器之前有任何操作，则只有在从商店读取整个数据后才会应用过滤器。

过滤条件如何在spark数据帧中工作？

1 个答案: