我正在尝试在pyspark中使用mmlspark软件包,但无法导入模型。
我的jupyter笔记本计算机已连接到群集。我在以下的Sparksession中包含了软件包的详细信息。在连接到集群的Spark UI中,我可以看到在spark.yarn.dist.jars中添加的jar。但是我们将mmlspark导入笔记本中-我找不到消息包。有什么我想念的吗?谢谢
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
conf = (SparkConf() \
.setAppName("dataPipeline") \
.set("spark.jars.packages", "Azure:mmlspark:0.13")
.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
.set("spark.dynamicAllocation.enabled", "False") \
.set("spark.executor.memory","8g") \
.set("spark.driver.memory","4g"))
spark = SparkSession.builder \
.master("yarn") \
.config(conf=conf) \
.enableHiveSupport() \
.getOrCreate()