当HDInsight从Azure DocumentDB中获取数据时会发生什么

时间:2015-12-11 19:00:55

标签: hdinsight azure-cosmosdb

我有一个在HDInsight上运行的Hadoop作业和来自Azure DocumentDB的源数据。这项工作每天运行一次,当每天都有新数据传入DocumentDB时,我的hadoop作业会过滤掉旧记录并只处理新记录(这是通过在某处存储时间戳来完成的)。但是,由于Hadoop作业正在运行,如果有新记录进入,我不知道它们会发生什么。他们是否被送去上班? DocumentDB中的限制机制如何在这里发挥作用?

1 个答案:

答案 0 :(得分:0)

  1. 当hadoop作业正在运行时,如果有新记录进入,我不知道它们会发生什么。他们是否被送去上班?
  2. 答案取决于hadoop作业所处的阶段或步骤。数据在开始时被拉一次。在获取数据时添加的文档将包含在Hadoop作业结果中。完成数据拉取后添加的文档不会包含在Hadoop作业结果中。

    注意:一致行为需要ORDER BY _ts - 因为在分析查询结果时,Hadoop作业简单地遵循延续令牌。

    1. “DocumentDB中的限制机制如何在这里扮演角色?”
    2. DocumentDB Hadoop连接器会在受到限制时自动重试。