我对Azure中的解决方案有一个问题。问题是如何决定使用哪种技术以及如何找到它们的最佳组合。
假设我有两个数据集,每天都在增长:
我的ADL商店每天都有一个CSV文件,它包含所有可能的纬度和长度组合的天气数据以及它们的邮政编码,以及50种不同的天气变量。
我有另一个带有POS(销售点)的数据集,它也是我的ADL存储的每日CSV文件。它包含所有零售点的销售数据。
所需的输出是让文件"切碎"以某种方式为AzureML根据天气预测销售数据做准备,并且每个零售地点进行预测并通过PowerBI仪表板传送给每个人。要求不允许不同位置查看任何其他位置的预测。
我的问题是:
赞赏关于架构主题的任何一般指导,并且还了解关于不同合适解决方案的比较的任何更具体的想法。
答案 0 :(得分:0)
这是一个广泛的问题。
我只会回答你的ADL特定问题#2,并给你一个与Azure ML无关的#3提示(因为我不知道那种格式是什么):
如果您只是使用文件,请将日期/时间信息添加到文件路径名中(在文件夹或文件名中)。然后使用U-SQL文件集查询您感兴趣的范围。如果使用U-SQL表,请使用PARTITIONED BY
。有关详细信息,请查看U-SQL Reference documentation。
如果您需要创建多个文件作为输出,则有两个选项:
一个。你知道所有的文件名,为每个文件写一个OUTPUT语句,只为它选择相关的数据。
湾你必须动态生成一个脚本,然后执行它。与this类似。