应用错误收集

我一直在Ubuntu AWS Box上使用spark-1.4.1，配备64GB RAM和36个核心。有一个大小为965MB的文本文件，其中包含1700万行。我在内存中加载它并使用spark映射rdd：

def clean(line):
       line = line.strip().replace("'","").split('\t')
       return (line[0], int(line[1]))


data = sc.parallelize(open('data.tsv')).map(lambda x: clean(x)).groupByKey()

两件事：我希望Spark可以使用我的机器中可用的所有内核，其数量为36，但我发现只有一个CPU一直在使用。（我发现使用htop）如何使用所有CPU。

因为它没有使用所有的CPU可能是因为它无法处理17mn行。它给了我这个错误：

如何让Spark使用所有核心？

0 个答案: