为什么在HDFS中使用Spark的第一读总是更长?

时间:2018-08-03 09:21:34

标签: apache-spark hdfs parquet

我正在尝试测量csv和镶有火花的镶木地板之间的读取时间差。我知道镶木地板速度更快,但我需要为报告提供一些指标。 我注意到,当我陆续读取文件时,第一个文件总是更长,如以下屏幕截图所示。

实木复合地板优先:

csv首先:

我不明白为什么,请您解释一下?

0 个答案:

没有答案