Question

我在云中有一个服务器（隐藏在VPN后面），在该服务器上运行单节点Elasticsearch集群。在Elasticsearch的这个实例中，我有一个索引（比方说它名为metrics-data）-它占用8GB的空间。

我想部署GCP Dataproc集群并使用Spark和Jupyter对来自该远程Elasticsearch集群的指标数据索引进行一些分析。

最简单的方法是什么？

Answer 1

好吧，所以我毕竟决定：

使用elasticdump将索引从我的Elasticsearch群集转储到本地计算机：

elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
    --output=./data/metrics-data.json --sourceOnly --limit=10000

将文件上传到Google云存储（GCS）：

for i in ./data/*; do gsutil cp $i gs://bucket-name/; done

如果elasticdump直接输出到GCP（就像亚马逊S3一样），将会更加流畅。

不确定它是否最简单，但对我有用。