用于分析xml数据的azure解决方案

时间:2018-02-01 15:49:17

标签: azure azure-sql-database azure-storage-blobs azure-data-lake

我们正在研究在Azure中开发BI解决方案,以分析客户航空公司对我们系统的搜索请求。请求存储为xmls,每天生成约5000万。您建议将哪些天蓝色解决方案加载到云中,分析这些数据......跨时间的趋势(保持历史数据),实时系统性能/错误......数据包含在xmls中?

我认为我们还需要像快速路线那样将数据传输到云端

3 个答案:

答案 0 :(得分:2)

您可以使用Azure Blob Storage将该数据上传到Azure。如果XML数据分析很复杂,您可能需要将其转换为更简单的格式,如CSV格式。

您可以使用Azure Data Factory将XML文件转换为CSV文件,然后您可以通过Azure SQL Data Warehouse将所有生成的CSV文件加载到Polybase中的相应表格中,并在Azure上加载已开发的存储过程活动数据工厂。

如果要在BLOB存储上为未处理的XML文件创建一个文件夹,则会处理另一个处理XML文件的文件夹,并创建另一个用于创建CSV文件的文件夹,并且您希望Azure Data Factory在所有文件夹中将文件从一个文件夹移动到另一个文件夹。过程,然后您需要使用HDInsight并为此目的创建地图缩减活动。

PolyBase允许使用T-SQL语句访问存储在Hadoop或Azure Blob存储中的数据,并以一种特殊的方式查询它。它还可以让您查询半结构化数据并将结果与​​存储在SQL数据仓库中的关系数据集连接起来。您应该能够使用PolyBase创建指向Blob存储中的数据的外部表。然后使用简单的存储过程,您可以选择外部表中的所有数据,并将它们加载到SQL数据仓库中的相应表中。

将所有转换后的数据加载到相应的表中后,您可以编写存储过程来生成聚合表的数据,然后可以使用这些数据来提供PowerBI dashboards

希望这有帮助。

答案 1 :(得分:1)

目前(2020-06),Azure Synapse(Azure DW)仍不支持XML。

一种可行的方法是使用Azure Functions解析XML或将其转换为JSON(然后使用SQL json_query / value)。第二种方法确实意味着失去Xquery功能。

经典Azure SQL Server(或其超大规模版本)确实支持常规XML查询。

答案 2 :(得分:0)

Azure Data Lake's U-SQL的官方文档说:

  

解析非结构化数据,例如网页和电子邮件,或   半结构化数据,如XML / JSON。

然后您可以combine that with Azure Stream Analytics创建警报或连接到其他Azure服务,如EventHub等。

昂贵但非常可靠的解决方案还将Logic App with some connector纳入以创建类似工作流程的体验。