我将数据以json格式从Spark数据帧保存到Azure Blob存储中。 现在,我编写了一个Stream Analytics作业,以从Azure Blob获取数据并将其存储到Cosmos DB中。
当我用包含1万条记录的示例文件(小于1MB)测试Stream Analytics作业时,它将返回整个10K记录作为预期结果。
问题是,当我从Blob存储中取样并进行测试时,仅返回700条记录。但是在Blob存储中,大约有5GB的数据,预期的输出不应为700行,而应为较大的值。
是否知道为什么记录数量出现这种差异? 我的Blob存储结构如下。容器名称是dataframecopy,数据加载/测试数据是文件存储的位置。
答案 0 :(得分:0)
从实时来源中采样事件最多可以检索1000个事件,或者 1 MB(以先到者为准),因此采样的数据可能不代表 指定的整个时间间隔。
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-test-query
您的问题对我来说还不是很清楚,但这是否适合您的情况?
答案 1 :(得分:0)
从本地计算机添加示例文件时,我们可以上传的文件大小上限为2MB。 如果要从Blob输入本身中获取样本,则不会从Blob中获取全部数据,而会获取小于1MB的数据作为样本数据。因此,输出时获得的行数将相对较少。
运行Analytics(分析)作业后,我们可以看到blob中的所有数据都已得到处理。 因此,上述问题不是错误或问题