我喜欢150 TB的JSON文档,这些文档存储在我的个人Windows驱动程序中。我正在将这些驱动程序移动到Microsoft Azure存储帐户。我想拉出那个JSON数据并将其发布在Kafka上。从Kafka我想用Kafka-couch连接器推送到Couchbase。什么是最好的方法和程序? (记住数据复制)
Azure --->卡夫卡---> Couchbase
或Azure ---> Couchbase。
或Windows驱动程序---> Couchbase
答案 0 :(得分:1)
根据您的需求,我为您提供两种选择。
第一个选项,您可以在其中创建自己的程序以从Azure Blob存储中获取数据并将数据推送到Kafka。您可以使用WebJob
在Azure Web App Service中运行它。
此选项非常耗时,但成本较低。 您可以参考下面的代码片段或获取有关通过here中的java将数据推送到kafka的更多详细信息。
第二个选项,您可以使用Azure HDInsight服务并按照official document通过以下语法访问Azure Blob存储中存储的数据:
wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>
。
然后,请在此site下载 HDFS (Sink)
连接器,将Json数据从HDInsight推送到Kafka。
此选项可节省时间,但费用更高。
你也可以参考SO线程Kafka Connector for Azure Blob Storage,只需根据需要选择其中一个选项。
希望它对你有所帮助。