应用错误收集

以下代码可完美运行，并在EMR群集的本地文件系统路径上生成JSON（注释行）。但是，当我想将其存储到S3存储桶中时，使用相同的JSON，我需要在提交火花期间传递Ojdbc.jar和emrfs-hadoop-assembly-2.18.0.jar，在这里也可以正常工作。
但是，现在我使用python脚本自动创建了集群，并通过执行py文件启动了集群，但是上面提到的2个jar如何传递python脚本。不通过我就无法存储到S3中。请帮助...

import cx_Oracle
import pandas as pd
from pyspark.shell import spark

conn = cx_Oracle.connect(user='username', password='pwd', dsn='dnslocal:1521/ourdb')
sql = "select * from EMP where OPERATOR = 12345"
curs = conn.cursor()
res = curs.execute(sql)
rows = res.fetchall()
pdDf = pd.DataFrame(rows, index=None, columns=None)
#pdDf.to_json("/home/hadoop/jsonFromCXOracle2.json")
pdDf.to_json("s3://myBucket/jsonFromcxoracle1.json")

使用python脚本创建时如何将依赖的JAR传递给EMR Cluster

0 个答案: