无法使用Stream Analytics Job从Azure Blob获取完整记录

时间:2019-07-30 06:49:29

标签: azure azure-storage-blobs azure-blob-storage azure-stream-analytics

我将数据以json格式从Spark数据帧保存到Azure Blob存储中。 现在,我编写了一个Stream Analytics作业,以从Azure Blob获取数据并将其存储到Cosmos DB中。

当我用包含1万条记录的示例文件(小于1MB)测试Stream Analytics作业时,它将返回整个10K记录作为预期结果。

问题是,当我从Blob存储中取样并进行测试时,仅返回700条记录。但是在Blob存储中,大约有5GB的数据,预期的输出不应为700行,而应为较大的值。

是否知道为什么记录数量出现这种差异? 我的Blob存储结构如下。容器名称是dataframecopy,数据加载/测试数据是文件存储的位置。 enter image description here

以下是可用文件的大小。 enter image description here

以下是Stream Analytics作业提供的Blob设置。 enter image description here

从Blob输入进行数据采样的输出为783行,如下所示,好像我从本地计算机上载1MB的示例数据文件一样,它返回10K行。 enter image description here

2 个答案:

答案 0 :(得分:0)

  

从实时来源中采样事件最多可以检索1000个事件,或者   1 MB(以先到者为准),因此采样的数据可能不代表   指定的整个时间间隔。

https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-test-query

您的问题对我来说还不是很清楚,但这是否适合您的情况?

答案 1 :(得分:0)

从本地计算机添加示例文件时,我们可以上传的文件大小上限为2MB。 如果要从Blob输入本身中获取样本,则不会从Blob中获取全部数据,而会获取小于1MB的数据作为样本数据。因此,输出时获得的行数将相对较少。

运行Analytics(分析)作业后,我们可以看到blob中的所有数据都已得到处理。 因此,上述问题不是错误或问题