哪种Azure存储技术可用于天气预报数据

时间:2019-05-17 13:16:19

标签: azure azure-sql-database azure-storage azure-data-lake azure-machine-learning-studio

我想要一些有关选择正确技术的建议/技巧,以便在Azure技术上存储一些预测数据。 我和我的团队每天都从各种来源抓取一些天气预报数据,并将其按原样存储在Azure文件存储中。文件格式为“ grib2”,这是天气预报数据的标准格式。 我们可以使用在Azure VM上运行的python脚本从这些“ grib2”文件中提取数据。

我们现在有几个文件,代表要存储数百GB的数据,而我正在努力寻找Azure技术中的哪个数据存储在实用性和成本方面最适合我们的需求。
我们首先开始使用“ Azure Table Storage”,因为它是一种廉价的解决方案,  但是我读过很多文章,它有些陈旧,不太适合我们的解决方案,例如,它不允许每个查询超过1000个实体,并且不对数据进行汇总。

我考虑过使用Azure SQL数据库,但是看起来它很快变得非常昂贵。
我还考虑了Azure Data Lake Storage Gen2(和HDinsight)技术,但是使用这些Blob存储并不是很轻松,并且我真的无法说出它是否可以满足我的需求以及是否“易于查询”。 。

现在,我们正计划实现这一目标:

  

1)感谢在Azure VM上运行的python脚本从grib2文件中提取数据   
2)将转换后的数据插入[Azure存储]   
3)从Azure机器学习服务或本地R脚本中查询[Azure存储]   
4)将计算出的数据插入[Azure存储器]

要确定[Azure存储]技术的位置。

任何帮助或建议,将不胜感激,谢谢。

1 个答案:

答案 0 :(得分:2)

我会在这里看到几件事:

  1. 要以原始格式存储下载的文件(在您的情况下为grib2),请将其放置在良好的Azure Blob存储中。完全满足您需求的廉价存储。
  2. 使用Azure Databricks to load the data from the storage account并将其解压缩到内存中。 (python或scala)
  3. 将数据加载到内存中-仍在Databricks中-以运行ML推理。如果您确实愿意,也可以使用SparkR。
  4. 将计算出的文件存储在服务层中。这确实取决于您以后要使用的功能。通常,Azure SQL数据库是一个显而易见的选择。有native Spark connector可以有效地将数据从Databricks写入SQL DB。

除了将Databricks用作推理环境外,它也是ML培训(例如,利用Azure ML Service)的不错选择。