我有一个在HDInsight上运行的Hadoop作业和来自Azure DocumentDB的源数据。这项工作每天运行一次,当每天都有新数据传入DocumentDB时,我的hadoop作业会过滤掉旧记录并只处理新记录(这是通过在某处存储时间戳来完成的)。但是,由于Hadoop作业正在运行,如果有新记录进入,我不知道它们会发生什么。他们是否被送去上班? DocumentDB中的限制机制如何在这里发挥作用?
答案 0 :(得分:0)
答案取决于hadoop作业所处的阶段或步骤。数据在开始时被拉一次。在获取数据时添加的文档将包含在Hadoop作业结果中。完成数据拉取后添加的文档不会包含在Hadoop作业结果中。
注意:一致行为需要ORDER BY _ts - 因为在分析查询结果时,Hadoop作业简单地遵循延续令牌。
DocumentDB Hadoop连接器会在受到限制时自动重试。