我对Databricks非常陌生。所以,请原谅我。这是我的要求
如何执行此活动。我假设没有一个射击过程。我打算创建一个笔记本并通过Azure数据工厂运行它。将数据泵送到Blob中,然后使用.Net将其发送到事件中心。但是,在Azure Data Factory中,我们只能运行Azure Databricks笔记本,而不能存储在任何地方
答案 0 :(得分:1)
Azure Databricks确实支持Azure Event Hubs作为源和接收器。了解Structured Streaming-它是Apache Spark中的流处理引擎(也可在Azure Databricks中使用)
创建一个笔记本来完成所有转换(联接,聚合...)-假设您正在批量写入azure事件中心。
PySpark代码:
val connectionString = "Valid EventHubs connection string."
val ehWriteConf = EventHubsConf(connectionString)
df.select("body")
.write
.format("eventhubs")
.options(ehWriteConf.toMap)
.save()
如果查询正在流式传输,请将.write
替换为.writeStream
。
与Azure事件中心一起使用时,有关分区的更多注意事项-它是可选的,您可以仅发送正文(将执行循环模型)
更多信息here