我有一个非常简单的Glue ETL作业,其代码如下:
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate()
conf = sc.getConf()
print(conf.toDebugString())
在启用Redshift连接的情况下创建作业。执行作业时,我得到:
No module named pyspark.context
public documentations似乎都提到,指出并暗示pyspark的可用性,但是为什么我的环境抱怨它没有pyspark?我缺少什么步骤?
最好的问候, 林
答案 0 :(得分:0)
我使用:
from pyspark.context import SparkContext
from awsglue.context import GlueContext
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
答案 1 :(得分:0)
Python Shell作业仅支持Python以及诸如pandas,Scikit-learn之类的库。它们不支持PySpark,因此您应该创建一个作业类型= Spark和ETL语言= Python的作业,以使其工作