Elasticsearch script_fields更新另一个字段?

时间:2017-06-06 22:52:11

标签: elasticsearch scripting data-migration

有没有办法使用ElasticSearch script_fields的输出来更新索引中的另一个变量?

我在ElasticSearch 1.x中有一个索引,它已启用时间戳,但未存储。 (见下面的地图)

这意味着可以访问搜索时间戳,也可以使用像

这样的script_fields
GET twitter/_search
{
     "script_fields": {
       "script1": {
          "script": "_fields['_timestamp']" 
        }
  }
}

我需要提取此时间戳字段,并将其存储在索引中。编写脚本以复制任何其他字段很容易,例如(我正在使用更新API)

ctx._source.t1=ctx._source.message

但是如何使用script_fields输出中的值来更新索引中的另一个字段?我想要这个领域' tcopy'获取每个文档的时间戳值。

此外,我尝试使用java来获取如下的值,但它返回null。

SearchResponse response = client.prepareSearch("twitter")
                .setQuery(QueryBuilders.matchAllQuery())
                .addScriptField("test", "doc['_timestamp'].value")
                .execute().actionGet();

映射

 {
         "mappings": {
             "tweet": {
                "_timestamp": {
                   "enabled": true,
                   "doc_values" : true
                },
                "properties": {
                   "message": {
                      "type": "string"
                   },
                   "user": {
                      "type": "string"
                   },
                   "tcopy": {
                      "type": "long"
                   }
                }
             }
          }
    }

2 个答案:

答案 0 :(得分:1)

您需要在两次运行中执行此操作:

  1. 运行查询并获取映射ID< - > timestamp和
  2. 然后使用时间戳
  3. 运行批量更新

    因此,要从twitter索引中提取时间戳数据,您可以使用elasticdump,例如:

    elasticdump \
       --input=http://localhost:9200/twitter \
       --output=$ \
       --searchBody '{"script_fields": {"ts": {"script": "doc._timestamp.value"}}}' > twitter.json
    

    这将生成一个名为twitter.json的文件,其中包含以下内容:

    {"_index":"twitter","_type":"tweet","_id":"1","_score":1,"fields":{"ts":[1496806671021]}}
    {"_index":"twitter","_type":"tweet","_id":"2","_score":1,"fields":{"ts":[1496807154630]}}
    {"_index":"twitter","_type":"tweet","_id":"3","_score":1,"fields":{"ts":[1496807161591]}}
    

    然后,您可以轻松使用该文件来更新文档。首先创建一个名为read.sh

    的shell脚本
    #!/bin/sh
    while read LINE; do 
        INDEX=$(echo "${LINE}" | jq '._index' | sed "s/\"//g"); 
        TYPE=$(echo "${LINE}" | jq '._type' | sed "s/\"//g"); 
        ID=$(echo "${LINE}" | jq '._id' | sed "s/\"//g"); 
        TS=$(echo "${LINE}" | jq '.fields.ts[0]'); 
        curl -XPOST "http://localhost:9200/$INDEX/$TYPE/$ID/_update" -d "{\"doc\":{\"tcopy\":"$TS"}}"
    done
    

    最后你可以像这样运行它:

    ./read.sh < twitter.json
    

    脚本运行完毕后,您的文档将包含tcopy字段_timestamp

答案 1 :(得分:0)

可以使用java访问_timestamp字段。然后,我们可以使用Update API来设置新字段。请求看起来像

SearchResponse response = client.prepareSearch("twitter2")
                .setQuery(QueryBuilders.matchAllQuery())
                .addScriptField("test", "doc['_timestamp'].value")
                .execute().actionGet();

然后我可以将UpdateRequestBuilder与使用此值更新索引的脚本一起使用