以下代码可完美运行,并在EMR群集的本地文件系统路径上生成JSON(注释行)。但是,当我想将其存储到S3存储桶中时,使用相同的JSON,我需要在提交火花期间传递Ojdbc.jar
和emrfs-hadoop-assembly-2.18.0.jar
,在这里也可以正常工作。
但是,现在我使用python脚本自动创建了集群,并通过执行py文件启动了集群,但是上面提到的2个jar如何传递python脚本。不通过我就无法存储到S3中。请帮助...
import cx_Oracle
import pandas as pd
from pyspark.shell import spark
conn = cx_Oracle.connect(user='username', password='pwd', dsn='dnslocal:1521/ourdb')
sql = "select * from EMP where OPERATOR = 12345"
curs = conn.cursor()
res = curs.execute(sql)
rows = res.fetchall()
pdDf = pd.DataFrame(rows, index=None, columns=None)
#pdDf.to_json("/home/hadoop/jsonFromCXOracle2.json")
pdDf.to_json("s3://myBucket/jsonFromcxoracle1.json")