标签: apache-spark hive hdfs
我正在测试使用Spark加载存储在HDFS中的表需要多长时间(我正在使用JavaHiveContext)。
我的桌子是22,4Gb,分为215块,所以当我读到它时,我得到了215个任务。
从结果中,每个任务以42Mb /秒的速度读取(每个任务读取107Mb,为2,54秒)(在我的测试中,我使用1个执行器和一个核心),但在我的主机上,磁盘速度不低于100Mb /秒。
为什么我会出现这种差异?