如何在Glue ETL中启用pySpark?

时间:2019-07-16 21:20:23

标签: pyspark aws-glue

我有一个非常简单的Glue ETL作业,其代码如下:

from pyspark.context import SparkContext

sc = SparkContext.getOrCreate()
conf = sc.getConf()

print(conf.toDebugString())

在启用Redshift连接的情况下创建作业。执行作业时,我得到:

No module named pyspark.context

public documentations似乎都提到,指出并暗示pyspark的可用性,但是为什么我的环境抱怨它没有pyspark?我缺少什么步骤?

最好的问候, 林

2 个答案:

答案 0 :(得分:0)

我使用:

from pyspark.context import SparkContext
from awsglue.context import GlueContext

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

答案 1 :(得分:0)

Python Shell作业仅支持Python以及诸如pandas,Scikit-learn之类的库。它们不支持PySpark,因此您应该创建一个作业类型= Spark和ETL语言= Python的作业,以使其工作