我们正在构建一个新的Data Lake,以容纳来自各种数据源的大量数据,并将数据以 Parquet格式存储在Amazon S3存储桶中。
我们当前根据特定字段创建分区(例如,Record-Creation-Time)。因此,只要对数据湖的查询基于此特定字段,我们就很好。
但是现在我们也需要基于其他一些字段(例如,上次更新时间,交易时间等)查询相同的数据。我们想知道如何不必复制数据并将其存储在基于其他参数(上次更新时间,交易时间等)的分区中
我确定这是一个普遍的问题,并且会有解决该问题的现有方法,但是到目前为止我找不到太多的信息。我希望StackOverflow的数据专家可以通过建议将数据存储在Data Lake中的正确方法来帮助我,以便我可以使用各种参数进行查询。
我查找了许多与大数据相关的博客/站点以寻求帮助,但没有找到特定于我查询的内容。