从湖中读取数据

时间:2019-10-17 12:43:16

标签: azure azure-sql-database azure-cosmosdb azure-data-factory azure-data-lake

我需要从天蓝色数据湖中读取天蓝色数据中的数据,并在sql中应用一些联接并在Web UI中显示。 数据约为300 GB,并且以4Mbps的速度将数据从Azure数据工厂迁移到Azure SQL数据库。 我还尝试使用具有Polybase支持的sql server 2019,但是复制数据也需要12到13个小时。 还尝试过使用cosmos db来存储湖中的数据,但似乎要花费大量时间。

我们可以通过其他任何方式从湖中读取数据。 一种方法可能是天蓝色的数据仓库,但这太昂贵了,并且仅支持128个并发事务。 可以使用数据块,但是它是一个计算引擎,我们需要24 * 7的UI查询可用

2 个答案:

答案 0 :(得分:0)

我仍然建议您使用Azure数据工厂。正如您所说,您的数据约为300 gb。

这里是Copy performance and scalability achievable using ADF

enter image description here

我同意David Makogon。您的数据工厂的性能非常慢(4Mbps)。请参考此文档Copy activity performance and scalability guide

它将帮助您提高Data Factory数据复制性能,提供有关Data Factory设置或数据库设置的更多建议。

希望这会有所帮助。

答案 1 :(得分:0)

我有一个非常相似的情况,只是+ -900GB的更多数据。 如果需要在ui中显示它,则仍然需要将数据加载到Azure SQL,因为DWH不能很好地处理并行加载及其开销。 我们最终使用了来自Blob存储的批量插入。 我创建了sp来调用带有参数(源文件,目标表)的批量插入,并创建ADF来协调和并行运行。 找不到比这更快的东西。 https://docs.microsoft.com/en-us/sql/relational-databases/import-export/examples-of-bulk-access-to-data-in-azure-blob-storage?view=sql-server-ver15