我在云中有一个服务器(隐藏在VPN后面),在该服务器上运行单节点Elasticsearch集群。在Elasticsearch的这个实例中,我有一个索引(比方说它名为metrics-data)-它占用8GB的空间。
我想部署GCP Dataproc集群并使用Spark和Jupyter对来自该远程Elasticsearch集群的指标数据索引进行一些分析。
最简单的方法是什么?
答案 0 :(得分:2)
好吧,所以我毕竟决定:
elasticdump
将索引从我的Elasticsearch群集转储到本地计算机:
elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
--output=./data/metrics-data.json --sourceOnly --limit=10000
for i in ./data/*; do gsutil cp $i gs://bucket-name/; done
如果elasticdump
直接输出到GCP(就像亚马逊S3一样),将会更加流畅。
不确定它是否最简单,但对我有用。