AWS胶水Spark提交使用Spark Avro

时间:2020-07-14 15:48:08

标签: amazon-web-services apache-spark pyspark aws-glue aws-glue-spark

如何将包参数指定/传递给AWS胶火花工作?

我正在使用支持Glue version 1Spark 2.4.3,并且想使用Spark avro读取一些avro文件

1 个答案:

答案 0 :(得分:1)

您不能为胶粘作业提供package选项,而是从maven存储库下载相关的jars

然后将这些罐子放在s3中,并将它们作为其他罐子传递给您的工作。 这样,您可以访问作业中的这些jar。

对于spark2.4.3,您需要通过此罐子

https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.12/2.4.3/spark-avro_2.12-2.4.3.jar