我想保持Windows azure hdinsight群集始终运行,以便我可以定期从主数据存储(mongodb)写入更新,并让它按需处理map-reduce作业。
如何定期将mongodb中的数据与hdinsight服务同步?无论何时提交新查询,我都会尝试不必上传所有数据,而是以某种方式预热。
这可能在hdinsight上吗?有没有可能与hadoop? 谢谢,
答案 0 :(得分:1)
当然可以将数据从Mongo推送到Hadoop。
不幸的是HDInsight不支持HBase(否则)你可以使用类似ZeroWing的东西,这是Stripe的一个解决方案,它读取Mongo用于复制的MongoDB Op日志,然后将我们写入HBase。
另一种解决方案可能是将文档从Mongo写入Azure Blob存储,这意味着您不必一直拥有群集,但可以使用它来定期映射减少分析存储库中的文件。
您最好的方法无疑是使用Mongo Hadoop连接器。这可以安装在HDInsight中,但它有点繁琐。 I've blogged a method here.