将CSV从EMR导出到S3存储桶非常慢

时间:2018-08-08 13:53:32

标签: amazon-s3 pyspark amazon-emr

我正在尝试在EMR群集中运行PySpark作业,该作业将从EMR导出约500 MB的csv文件到我的S3存储桶。 但这非常慢,需要2.5个小时的时间。在我的本地PC中使用相同的代码,仅需5分钟即可完成执行。 任何建议都将不胜感激。

谢谢, 斯里尼

0 个答案:

没有答案