什么是从Microsoft Azure中提取JSON文档并推送到Kafka的最佳方式?

时间:2017-08-31 02:16:59

标签: java json azure apache-kafka couchbase

我喜欢150 TB的JSON文档,这些文档存储在我的个人Windows驱动程序中。我正在将这些驱动程序移动到Microsoft Azure存储帐户。我想拉出那个JSON数据并将其发布在Kafka上。从Kafka我想用Kafka-couch连接器推送到Couchbase。什么是最好的方法和程序? (记住数据复制)

Azure --->卡夫卡---> Couchbase

或Azure ---> Couchbase。

或Windows驱动程序---> Couchbase

1 个答案:

答案 0 :(得分:1)

根据您的需求,我为您提供两种选择。

第一个选项,您可以在其中创建自己的程序以从Azure Blob存储中获取数据并将数据推送到Kafka。您可以使用WebJob在Azure Web App Service中运行它。

此选项非常耗时,但成本较低。 您可以参考下面的代码片段或获取有关通过here中的java将数据推送到kafka的更多详细信息。

第二个选项,您可以使用Azure HDInsight服务并按照official document通过以下语法访问Azure Blob存储中存储的数据: wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>

然后,请在此site下载 HDFS (Sink) 连接器,将Json数据从HDInsight推送到Kafka。

此选项可节省时间,但费用更高。

你也可以参考SO线程Kafka Connector for Azure Blob Storage,只需根据需要选择其中一个选项。

希望它对你有所帮助。