应用错误收集

当HDInsight从Azure DocumentDB中获取数据时会发生什么

时间：2015-12-11 19:00:55

标签： hdinsight azure-cosmosdb

我有一个在HDInsight上运行的Hadoop作业和来自Azure DocumentDB的源数据。这项工作每天运行一次，当每天都有新数据传入DocumentDB时，我的hadoop作业会过滤掉旧记录并只处理新记录（这是通过在某处存储时间戳来完成的）。但是，由于Hadoop作业正在运行，如果有新记录进入，我不知道它们会发生什么。他们是否被送去上班？ DocumentDB中的限制机制如何在这里发挥作用？

1 个答案:

答案 0 :(得分：0)

当hadoop作业正在运行时，如果有新记录进入，我不知道它们会发生什么。他们是否被送去上班？

答案取决于hadoop作业所处的阶段或步骤。数据在开始时被拉一次。在获取数据时添加的文档将包含在Hadoop作业结果中。完成数据拉取后添加的文档不会包含在Hadoop作业结果中。

注意：一致行为需要ORDER BY _ts - 因为在分析查询结果时，Hadoop作业简单地遵循延续令牌。

“DocumentDB中的限制机制如何在这里扮演角色？”

DocumentDB Hadoop连接器会在受到限制时自动重试。