Question

目前我正在尝试使用最新的date_processed过滤Hive表。

该表由。

分区

系统 DATE_PROCESSED 区域

我设法过滤它的唯一方法是通过连接查询：

query = "select * from contracts_table as a join (select (max(date_processed) as maximum from contract_table as b) on a.date_processed = b.maximum"

这种方式非常耗时，因为我必须为25个表执行相同的过程。

任何人都知道如何在Spark＆lt; 1.6

中直接读取表的最新加载分区

这是我用来阅读的方法。

public static DataFrame loadAndFilter (String query)
{
        return SparkContextSingleton.getHiveContext().sql(+query);
}

非常感谢！

Answer 1

可以通过以下方式接收包含所有表分区的数据帧：

可以解析值，以获取最大值。