启动spark-submit / pyspark时,我们可以选择使用--jars
选项指定jar文件。我们如何在pyspark中指定maven依赖项。在运行pyspark应用程序时,我们是否必须始终通过所有罐子?或者有更清洁的方式?
答案 0 :(得分:1)
我认为对于测试/开发非常实用的另一种方法是在脚本中创建 SparkSession,特别是通过添加 config
选项并通过 spark.jars.packages
以这种方式传递 Maven 包依赖项:< /p>
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]")\
.config('spark.jars.packages', 'groupId:artifactId:version')\
.getOrCreate()
这将自动从 Maven 存储库下载指定的依赖项(因此请仔细检查您的互联网连接)。
以同样的方式,可以传递列出的任何其他 Spark 参数 here。
有关 Maven 软件包的完整列表,请参阅 https://mvnrepository.com/
答案 1 :(得分:0)
根据https://spark.apache.org/docs/latest/submitting-applications.html,可以选择以逗号分隔的Maven坐标列表的形式指定--packages
。
./bin/spark-submit --packages my:awesome:package