我们如何在pyspark中指定maven依赖项

时间:2017-03-23 14:29:25

标签: pyspark

启动spark-submit / pyspark时,我们可以选择使用--jars选项指定jar文件。我们如何在pyspark中指定maven依赖项。在运行pyspark应用程序时,我们是否必须始终通过所有罐子?或者有更清洁的方式?

2 个答案:

答案 0 :(得分:1)

我认为对于测试/开发非常实用的另一种方法是在脚本中创建 SparkSession,特别是通过添加 config 选项并通过 spark.jars.packages 以这种方式传递 Maven 包依赖项:< /p>

from pyspark.sql import SparkSession


spark = SparkSession.builder.master("local[*]")\
        .config('spark.jars.packages', 'groupId:artifactId:version')\
        .getOrCreate()

这将自动从 Maven 存储库下载指定的依赖项(因此请仔细检查您的互联网连接)。

以同样的方式,可以传递列出的任何其他 Spark 参数 here

有关 Maven 软件包的完整列表,请参阅 https://mvnrepository.com/

答案 1 :(得分:0)

根据https://spark.apache.org/docs/latest/submitting-applications.html,可以选择以逗号分隔的Maven坐标列表的形式指定--packages

./bin/spark-submit --packages my:awesome:package