我一直在Ubuntu AWS Box上使用spark-1.4.1,配备64GB RAM和36个核心。有一个大小为965MB的文本文件,其中包含1700万行。我在内存中加载它并使用spark映射rdd:
def clean(line):
line = line.strip().replace("'","").split('\t')
return (line[0], int(line[1]))
data = sc.parallelize(open('data.tsv')).map(lambda x: clean(x)).groupByKey()
两件事: 我希望Spark可以使用我的机器中可用的所有内核,其数量为36,但我发现只有一个CPU一直在使用。 (我发现使用htop)如何使用所有CPU。