Question

我对Databricks非常陌生。所以，请原谅我。这是我的要求

我有存储在Azure DataLake中的数据
根据要求，我们只能通过Azure Databricks笔记本访问数据
我们必须从某些表中提取数据，与其他表连接，进行汇总
将数据发送到事件中心

如何执行此活动。我假设没有一个射击过程。我打算创建一个笔记本并通过Azure数据工厂运行它。将数据泵送到Blob中，然后使用.Net将其发送到事件中心。但是，在Azure Data Factory中，我们只能运行Azure Databricks笔记本，而不能存储在任何地方

Answer 1

Azure Databricks确实支持Azure Event Hubs作为源和接收器。了解Structured Streaming-它是Apache Spark中的流处理引擎（也可在Azure Databricks中使用）

创建一个笔记本来完成所有转换（联接，聚合...）-假设您正在批量写入azure事件中心。

PySpark代码：

val connectionString = "Valid EventHubs connection string."
val ehWriteConf = EventHubsConf(connectionString)
df.select("body")
.write
.format("eventhubs")
.options(ehWriteConf.toMap)    
.save()

如果查询正在流式传输，请将.write替换为.writeStream。

与Azure事件中心一起使用时，有关分区的更多注意事项-它是可选的，您可以仅发送正文（将执行循环模型）

更多信息here

Azure Databricks到事件中心

1 个答案: