带有Elasticsearch的GCP Dataproc

时间:2018-12-19 20:31:03

标签: apache-spark elasticsearch google-cloud-platform jupyter google-cloud-dataproc

我在云中有一个服务器(隐藏在VPN后面),在该服务器上运行单节点Elasticsearch集群。在Elasticsearch的这个实例中,我有一个索引(比方说它名为metrics-data)-它占用8GB的空间。

我想部署GCP Dataproc集群并使用Spark和Jupyter对来自该远程Elasticsearch集群的指标数据索引进行一些分析。

最简单的方法是什么?

1 个答案:

答案 0 :(得分:2)

好吧,所以我毕竟决定:

  1. 使用elasticdump将索引从我的Elasticsearch群集转储到本地计算机:
    elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
        --output=./data/metrics-data.json --sourceOnly --limit=10000
    
  2. 将文件上传到Google云存储(GCS):
    for i in ./data/*; do gsutil cp $i gs://bucket-name/; done
    
  3. 使用Cloud Storage connector(默认安装在GCP Dataproc上)将数据加载到Spark中

如果elasticdump直接输出到GCP(就像亚马逊S3一样),将会更加流畅。

不确定它是否最简单,但对我有用。