为什么AWS EMR上的pyspark需要很长时间才能完成?

时间:2018-02-25 17:04:22

标签: apache-spark pyspark emr

我在EMR上运行PySpark,目前只是测试东西。 簇大小是m4.2xlarge的30个实例

从包含近10TB日志的s3存储桶中,我尝试使用以下代码从日志文件中获取许多不同的n_gram(大小为5)元素:

5_grams = sc.textFile(s3://my_logs_bucket)
             .map(lambda log: get_longest_first_5_gram(log))
             .distinct() 

函数 get_longest_first_5_gram 只返回日志中的前5个短语

此功能需要很长时间才能完成,因为AWS实例需要很长时间才能完成 - 在我运行的30个实例中,大约3-4个需要大量时间才能完成

附件是来自 Ganglia 的图片,表示我在一个实例(不是主人)上遇到的问题。

enter image description here

有关如何更快地运行这个问题的想法,以至于它不会停留在这些实例上吗?

0 个答案:

没有答案