我是本地机器上的 Python 新手。到目前为止,我可以在 Azure Databricks 中编码。我想创建和部署连接到融合的 kafka 并将数据保存到增量表的库。 我很困惑 - 1] 我是否需要使用 python 从我的本地机器连接到 Databricks Delta 以将流存储到 delta 要么 通过如下设置将流存储到本地增量(我能够创建增量表)
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
.config("spark.jars.packages", "io.delta:delta-core_2.12:0.7.0") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
.getOrCreate()
并将 lib 部署到 databricks 中,当它运行时将指向 Databricks Delta
我也想使用 dbfs 文件存储连接到 kafka
.option("kafka.ssl.truststore.location", "/dbfs/FileStore/tables/test.jks") \
我是新手,请分享有关如何在 Python 中创建流应用程序的详细信息? 以及如何部署到 Databricks?
答案 0 :(得分:0)
要在没有笔记本的情况下在 Databricks 上执行 Python 代码,您需要配置一个 job。正如 OneCricketeer 提到的,egg
是库的文件格式,您需要有一个 Python 文件作为作业的入口点 - 它将初始化 Spark 会话,然后调用您的库.
可以配置作业(您还需要上传库):
spark-submit
选项运行 Python 代码。在Databricks上,Delta已经预装了,所以你不需要设置选项,指定maven坐标等等,所以你的初始化代码是:
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
.getOrCreate()