如何将mongodb数据连续写入正在运行的hdinsight集群中

时间:2013-12-18 14:53:20

标签: mongodb azure hadoop hdinsight

我想保持Windows azure hdinsight群集始终运行,以便我可以定期从主数据存储(mongodb)写入更新,并让它按需处理map-reduce作业。

如何定期将mongodb中的数据与hdinsight服务同步?无论何时提交新查询,我都会尝试不必上传所有数据,而是以某种方式预热

这可能在hdinsight上吗?有没有可能与hadoop? 谢谢,

1 个答案:

答案 0 :(得分:1)

当然可以将数据从Mongo推送到Hadoop。

不幸的是HDInsight不支持HBase(否则)你可以使用类似ZeroWing的东西,这是Stripe的一个解决方案,它读取Mongo用于复制的MongoDB Op日志,然后将我们写入HBase。

另一种解决方案可能是将文档从Mongo写入Azure Blob存储,这意味着您不必一直拥有群集,但可以使用它来定期映射减少分析存储库中的文件。

您最好的方法无疑是使用Mongo Hadoop连接器。这可以安装在HDInsight中,但它有点繁琐。 I've blogged a method here.