Azure Databricks到事件中心

时间:2018-11-14 04:37:00

标签: azure azure-data-factory azure-data-lake databricks

我对Databricks非常陌生。所以,请原谅我。这是我的要求

  1. 我有存储在Azure DataLake中的数据
  2. 根据要求,我们只能通过Azure Databricks笔记本访问数据
  3. 我们必须从某些表中提取数据,与其他表连接,进行汇总
  4. 将数据发送到事件中心

如何执行此活动。我假设没有一个射击过程。我打算创建一个笔记本并通过Azure数据工厂运行它。将数据泵送到Blob中,然后使用.Net将其发送到事件中心。但是,在Azure Data Factory中,我们只能运行Azure Databricks笔记本,而不能存储在任何地方

1 个答案:

答案 0 :(得分:1)

Azure Databricks确实支持Azure Event Hubs作为源和接收器。了解Structured Streaming-它是Apache Spark中的流处理引擎(也可在Azure Databricks中使用)

创建一个笔记本来完成所有转换(联接,聚合...)-假设您正在批量写入azure事件中心。

PySpark代码:

val connectionString = "Valid EventHubs connection string."
val ehWriteConf = EventHubsConf(connectionString)
df.select("body")
.write
.format("eventhubs")
.options(ehWriteConf.toMap)    
.save()

如果查询正在流式传输,请将.write替换为.writeStream

与Azure事件中心一起使用时,有关分区的更多注意事项-它是可选的,您可以仅发送正文(将执行循环模型)

更多信息here