如何让Spark使用所有核心?

时间:2015-10-27 14:35:32

标签: apache-spark pyspark

我一直在Ubuntu AWS Box上使用spark-1.4.1,配备64GB RAM和36个核心。有一个大小为965MB的文本文件,其中包含1700万行。我在内存中加载它并使用spark映射rdd:

def clean(line):
       line = line.strip().replace("'","").split('\t')
       return (line[0], int(line[1]))


data = sc.parallelize(open('data.tsv')).map(lambda x: clean(x)).groupByKey()

两件事: 我希望Spark可以使用我的机器中可用的所有内核,其数量为36,但我发现只有一个CPU一直在使用。 (我发现使用htop)如何使用所有CPU。

因为它没有使用所有的CPU可能是因为它无法处理17mn行。它给了我这个错误: enter image description here

0 个答案:

没有答案