AWS设置在Apache pyspark环境中运行python脚本

时间:2017-12-24 08:02:50

标签: python amazon-web-services pyspark amazon-emr

需要通过在pyspark框架上运行python脚本,RDD来对数据集执行数据分析和创建可视化。如果我们可以在AWS上执行此操作而不是在本地计算机(VM)上执行操作,那么请寻求帮助。

似乎我们在AWS中使用EMR或EC2提供了几个选项,但不确定相关的步骤和定价,即使我们在AWS中提供12个月的免费试用选项也是如此。

任何人都可以帮忙。

1 个答案:

答案 0 :(得分:0)

这里有2个选项:

选项1 :您可以在AWS上创建自己的实例,并根据您的需要设置一个hadoop群集(单个节点或多个节点)并在其上运行pyspark。

Option2 :您可以使用亚马逊提供的EMR(弹性地图缩减),它可以为您创建群集环境,您可以在那里运行您的pyspark代码。

选项1 更便宜,但您需要自行配置所有内容。 选项2比选项1更昂贵,但为您提供现成的环境。

如果您想使用免费套餐,我建议您选择1.您可以使用亚马逊在线计算器来比较费用。这是在线计算器的链接。 aws online calculator