登台数据库需要哪些Azure产品?

时间:2018-11-07 17:39:17

标签: azure azure-sql-database etl azure-data-factory azure-batch

我有一些使用某些Python脚本访问的外部数据API。我的脚本从本地服务器运行,转换数据,并将其存储在同一服务器上的SQL Server数据库中。我想这是一个使用Python和T-SQL运行的基本ETL系统。

该系统将通过新的API大量增长,并且将需要更复杂的数据管道(例如,某些API数据将被分解到多个表中)。我认为这是将系统迁移到Azure的好时机(我们已经与Microsoft进行了高度集成,因此必须是Azure!)。

我花了几天的时间研究Azure产品,这些产品将允许我运行Python脚本以从Web API访问数据并将处理后的数据存储在云数据库中。我正在寻找有关其他人用于类似工作的哪种Azure产品的建议。目前,我似乎需要:

  1. Azure SQL数据库保存处理后的数据,各同事均可访问。
  2. Azure Data Factory可管理,记录和调度管道作业并运行我的自定义Python脚本(甚至可能吗?)。
  3. Azure Batch可运行上述Python脚本,但对此我不确定。

我想基本上整理一份提案,然后开始考虑成本,但是最好能听到做过类似事情的人的声音-我是在正确的道路上还是完全离开了?我应该只保留在内部吗?预先谢谢你。

2 个答案:

答案 0 :(得分:1)

  1. Azure SQL数据库,Azure SQL数据仓库非常适合关系数据。如果要使用NoSQL,则可以使用Azure Cosmos DB。如果要使用文件存储数据,则可以使用Azure Data Lake。
  2. 对于python脚本,您可以将custom activityData bricks用于Azure数据工厂。

答案 1 :(得分:1)

如果要加载的数据量以PB为单位,则应使用Azure SQL Warehouse。此外,Azure数据仓库也不适用于复杂的转换。我建议使用PolyBase进行普通数据加载。