内存中缓存时Spark的拼花分区的失忆症(本机Spark缓存)

时间:2019-04-03 14:43:40

标签: apache-spark caching parquet

我正在使用Spark进行一些批处理,从大约2TB的分区镶木地板文件中读取数据。现在,我正在将整个文件缓存在内存中,因为我需要多次限制读取相同的镶木地板文件(顺便说一下,我们正在分析数据)。

等待一段时间,代码可以正常工作。最近,我们添加了一些用例,这些用例需要在某些选择性分区上工作(例如最近2年的平均指标,其中完整的数据在6年以上的时间内产生)。

当我们开始为执行时间量度指标时,我们已经观察到将用在分区数据子集上的用例所花的时间与用例所需要的时间相比也要相似。处理完整数据。

所以,我的问题是,Spark的内存中缓存是否支持Parquet文件的分区,即,即使将数据缓存在内存中,Spark也会保留分区信息吗?

注意:由于这实际上是关于Spark的处理风格的普遍问题,因此我没有添加任何度量或代码。

0 个答案:

没有答案