Elasticsearch数据二进制文件内存不足

时间:2015-09-18 15:11:33

标签: memory elasticsearch

我试图将800GB文件上传到elasticsearch但我不断收到内存错误,告诉我数据二进制文件内存不足。我的系统有64GB的RAM和3TB的存储空间

curl -XPOST 'http://localhost:9200/carrier/doc/1/_bulk' --data-binary @carrier.json

我想知道配置文件中是否有设置增加内存量以便我可以上传到他的文件

感谢

1 个答案:

答案 0 :(得分:5)

800GB是一次发送的相当多的东西,ES必须将所有内容放入内存才能处理它,所以这可能对你的内存量来说太大了。

解决此问题的一种方法是将文件拆分为多个,然后逐个发送。您可以使用下面的小shell脚本来实现它。

#!/bin/sh

# split the main file into files containing 10,000 lines max
split -l 10000 -a 10 carrier.json /tmp/carrier_bulk

# send each split file
BULK_FILES=/tmp/carrier_bulk*
for f in $BULK_FILES; do
    curl -s -XPOST http://localhost:9200/_bulk --data-binary @$f
done

<强>更新

如果您想要解释ES响应,可以通过将响应传递给像这样的小蟒蛇单行来轻松实现:

curl -s -XPOST $ES_HOST/_bulk --data-binary @$f | python -c 'import json,sys;obj=json.load(sys.stdin);print "    <- Took %s ms with errors: %s" % (obj["took"], obj["errors"])';