基于Spark的SSD上存储的数据处理

时间:2018-12-15 20:20:45

标签: apache-spark apache-spark-sql hdfs ssd

我们当前正在使用基于Spark 2.1的应用程序,该应用程序分析并处理大量记录以生成一些统计信息,以用于生成报告。现在,我们正在使用150个执行器,每个执行器使用2个内核,每个执行器使用10 GB的火花作业,并且以拼花格式存储的数据大小约为3TB。处理12个月的数据大约需要15分钟。

现在,为了提高性能,我们想尝试基于完整SSD的节点将数据存储在HDFS中。问题是,是否需要对SSD进行任何特殊的配置/优化?是否对基于SSD的HDFS和基于HDD的HDFS上的Spark处理性能进行了研究?

1 个答案:

答案 0 :(得分:1)

http://spark.apache.org/docs/latest/hardware-provisioning.html#local-disks

SetTimeout(function(){ var numReq = $('.fields .ul-cls[data-validation="required"]').length, numSel = $('.fields .ul-cls[data-validation="required"] li div.active').length; console.log(numReq+"->"+numSel); if(numSel >= numReq){ alert('validated!') }else{ console.log('not valid') } }, 100); // Set Timeout because click action delays update 是您需要更改的配置。

https://www.slideshare.net/databricks/optimizing-apache-spark-throughput-using-intel-optane-and-intel-memory-drive-technology-with-ravikanth-durgavajhala

用例为K表示算法,但会有所帮助。