在pyspark中添加mmlspark包

时间:2018-07-17 17:45:07

标签: apache-spark pyspark

我正在尝试在pyspark中使用mmlspark软件包,但无法导入模型。

我的jupyter笔记本计算机已连接到群集。我在以下的Sparksession中包含了软件包的详细信息。在连接到集群的Spark UI中,我可以看到在spark.yarn.dist.jars中添加的jar。但是我们将mmlspark导入笔记本中-我找不到消息包。有什么我想念的吗?谢谢

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
conf = (SparkConf() \
        .setAppName("dataPipeline") \
        .set("spark.jars.packages", "Azure:mmlspark:0.13")
        .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
        .set("spark.dynamicAllocation.enabled", "False") \
        .set("spark.executor.memory","8g") \
        .set("spark.driver.memory","4g"))
spark = SparkSession.builder \
.master("yarn") \
.config(conf=conf) \
.enableHiveSupport() \
.getOrCreate()

0 个答案:

没有答案