应用错误收集

时间：2019-07-30 06:49:29

标签： azure azure-storage-blobs azure-blob-storage azure-stream-analytics

我将数据以json格式从Spark数据帧保存到Azure Blob存储中。现在，我编写了一个Stream Analytics作业，以从Azure Blob获取数据并将其存储到Cosmos DB中。

当我用包含1万条记录的示例文件（小于1MB）测试Stream Analytics作业时，它将返回整个10K记录作为预期结果。

问题是，当我从Blob存储中取样并进行测试时，仅返回700条记录。但是在Blob存储中，大约有5GB的数据，预期的输出不应为700行，而应为较大的值。

是否知道为什么记录数量出现这种差异？我的Blob存储结构如下。容器名称是dataframecopy，数据加载/测试数据是文件存储的位置。

以下是可用文件的大小。

以下是Stream Analytics作业提供的Blob设置。

从Blob输入进行数据采样的输出为783行，如下所示，好像我从本地计算机上载1MB的示例数据文件一样，它返回10K行。

答案 0 :(得分：0)

从实时来源中采样事件最多可以检索1000个事件，或者 1 MB（以先到者为准），因此采样的数据可能不代表指定的整个时间间隔。

您的问题对我来说还不是很清楚，但这是否适合您的情况？

答案 1 :(得分：0)

从本地计算机添加示例文件时，我们可以上传的文件大小上限为2MB。如果要从Blob输入本身中获取样本，则不会从Blob中获取全部数据，而会获取小于1MB的数据作为样本数据。因此，输出时获得的行数将相对较少。

运行Analytics（分析）作业后，我们可以看到blob中的所有数据都已得到处理。因此，上述问题不是错误或问题