应用错误收集

什么是从Microsoft Azure中提取JSON文档并推送到Kafka的最佳方式？

时间：2017-08-31 02:16:59

标签： java json azure apache-kafka couchbase

我喜欢150 TB的JSON文档，这些文档存储在我的个人Windows驱动程序中。我正在将这些驱动程序移动到Microsoft Azure存储帐户。我想拉出那个JSON数据并将其发布在Kafka上。从Kafka我想用Kafka-couch连接器推送到Couchbase。什么是最好的方法和程序？（记住数据复制）

Azure ---＆gt;卡夫卡---＆gt; Couchbase

或Azure ---＆gt; Couchbase。

或Windows驱动程序---＆gt; Couchbase

1 个答案:

答案 0 :(得分：1)

根据您的需求，我为您提供两种选择。

第一个选项，您可以在其中创建自己的程序以从Azure Blob存储中获取数据并将数据推送到Kafka。您可以使用WebJob在Azure Web App Service中运行它。

此选项非常耗时，但成本较低。您可以参考下面的代码片段或获取有关通过here中的java将数据推送到kafka的更多详细信息。

第二个选项，您可以使用Azure HDInsight服务并按照official document通过以下语法访问Azure Blob存储中存储的数据： wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>。

然后，请在此site下载 HDFS (Sink) 连接器，将Json数据从HDInsight推送到Kafka。

此选项可节省时间，但费用更高。

你也可以参考SO线程Kafka Connector for Azure Blob Storage，只需根据需要选择其中一个选项。

希望它对你有所帮助。