使用python脚本创建时如何将依赖的JAR传递给EMR Cluster

时间:2018-09-17 09:17:37

标签: python-3.x amazon-s3 pyspark amazon-emr

以下代码可完美运行,并在EMR群集的本地文件系统路径上生成JSON(注释行)。但是,当我想将其存储到S3存储桶中时,使用相同的JSON,我需要在提交火花期间传递Ojdbc.jaremrfs-hadoop-assembly-2.18.0.jar,在这里也可以正常工作。
但是,现在我使用python脚本自动创建了集群,并通过执行py文件启动了集群,但是上面提到的2个jar如何传递python脚本。不通过我就无法存储到S3中。请帮助...

import cx_Oracle
import pandas as pd
from pyspark.shell import spark

conn = cx_Oracle.connect(user='username', password='pwd', dsn='dnslocal:1521/ourdb')
sql = "select * from EMP where OPERATOR = 12345"
curs = conn.cursor()
res = curs.execute(sql)
rows = res.fetchall()
pdDf = pd.DataFrame(rows, index=None, columns=None)
#pdDf.to_json("/home/hadoop/jsonFromCXOracle2.json")
pdDf.to_json("s3://myBucket/jsonFromcxoracle1.json")

0 个答案:

没有答案