流分析作业参考数据连接创建重复项

时间:2017-11-02 10:17:55

标签: azure azure-stream-analytics stream-analytics

我正在使用Stream Analytics加入流数据(通过IoT Hub)和参考数据(通过blob存储)。使用最新数据每分钟生成参考数据blob文件,格式为“filename- {date} {time} .csv”。参考blob文件数据在Azure机器学习功能中用作SA作业中的参数。流分析作业(进入Azure SQL或Power BI)的输出似乎为Azure机器学习功能的输出生成多行而不是一行,一个用于来自先前blob文件的参数值。我的理解是它应该只使用最新的blob文件内容,但看起来它正在使用所有blob文件并从AML输出生成多行。这是我正在使用的查询:

选择    AMLFunction(Ref.Input1,Ref.Input2),* 来自IoTInput Stream LEFT JOIN RefBlobInput Ref On Stream.DeviceId = Ref。[DeviceID]

如果查询或文件路径需要更改以避免重复记录,请您建议吗?感谢

1 个答案:

答案 0 :(得分:0)

要仅生效最新文件,您需要将文件存储在特定的文件夹结构中。

如果您记下笔记,每当您选择参考数据文件作为流输入时;流输入对话框会询问您的文件夹结构以及日期和时间格式。

Stream始终从最新的{date} / {time}文件夹中搜索参考文件。即你需要存储你的文件,

2018-01-25 / 07:30 / filename.json(YYYY-MM-DD / HH-mm / filename.json)

注意:您的时间文件夹在每分钟都必须是唯一的。同样,日期文件夹需要对每个日期都是唯一的。每当您创建新文件时,使用新的时间戳文件夹和当前日期文件夹下创建它。

您可以使用流输入支持的任何日期时间格式。