我们当前正在使用基于Spark 2.1的应用程序,该应用程序分析并处理大量记录以生成一些统计信息,以用于生成报告。现在,我们正在使用150个执行器,每个执行器使用2个内核,每个执行器使用10 GB的火花作业,并且以拼花格式存储的数据大小约为3TB。处理12个月的数据大约需要15分钟。
现在,为了提高性能,我们想尝试基于完整SSD的节点将数据存储在HDFS中。问题是,是否需要对SSD进行任何特殊的配置/优化?是否对基于SSD的HDFS和基于HDD的HDFS上的Spark处理性能进行了研究?
答案 0 :(得分:1)
http://spark.apache.org/docs/latest/hardware-provisioning.html#local-disks
SetTimeout(function(){
var numReq = $('.fields .ul-cls[data-validation="required"]').length,
numSel = $('.fields .ul-cls[data-validation="required"] li div.active').length;
console.log(numReq+"->"+numSel);
if(numSel >= numReq){
alert('validated!')
}else{
console.log('not valid')
}
}, 100);
// Set Timeout because click action delays update
是您需要更改的配置。
用例为K表示算法,但会有所帮助。