我想要一些有关选择正确技术的建议/技巧,以便在Azure技术上存储一些预测数据。 我和我的团队每天都从各种来源抓取一些天气预报数据,并将其按原样存储在Azure文件存储中。文件格式为“ grib2”,这是天气预报数据的标准格式。 我们可以使用在Azure VM上运行的python脚本从这些“ grib2”文件中提取数据。
我们现在有几个文件,代表要存储数百GB的数据,而我正在努力寻找Azure技术中的哪个数据存储在实用性和成本方面最适合我们的需求。
我们首先开始使用“ Azure Table Storage”,因为它是一种廉价的解决方案,
但是我读过很多文章,它有些陈旧,不太适合我们的解决方案,例如,它不允许每个查询超过1000个实体,并且不对数据进行汇总。
我考虑过使用Azure SQL数据库,但是看起来它很快变得非常昂贵。
我还考虑了Azure Data Lake Storage Gen2(和HDinsight)技术,但是使用这些Blob存储并不是很轻松,并且我真的无法说出它是否可以满足我的需求以及是否“易于查询”。 。
现在,我们正计划实现这一目标:
1)感谢在Azure VM上运行的python脚本从grib2文件中提取数据
2)将转换后的数据插入[Azure存储]
3)从Azure机器学习服务或本地R脚本中查询[Azure存储]
4)将计算出的数据插入[Azure存储器]
要确定[Azure存储]技术的位置。
任何帮助或建议,将不胜感激,谢谢。
答案 0 :(得分:2)
我会在这里看到几件事:
除了将Databricks用作推理环境外,它也是ML培训(例如,利用Azure ML Service)的不错选择。