使用elasticsearch-dsl-py索引和渗透文档

时间:2018-03-20 14:49:33

标签: python elasticsearch elasticsearch-dsl elasticsearch-dsl-py

我正在制作和调查检索信息研讨会。 我有一个带有文章列表的json文件,我需要对它们进行索引,然后使用带有突出显示的过滤器。

在终端中执行此操作的步骤列表如下:
1.创建一个渗透的地图。

curl -XPUT 'localhost:9200/my-index?pretty' -H 'Content-Type: application/json' -d'
{
    "mappings": {
        "_doc": {
            "properties": {
                "title": {
                    "type": "text"
                },
                "query": {
                    "type": "percolator"
                }
            }
        }
    }
}
'
  1. 索引新文章:

    curl -XPUT 'localhost:9200/my-index/_doc/1?refresh&pretty' -H 'Content-Type: application/json' -d'
    {           
        "CourseId":35,
          "UnitId":12390,
          "id":"16069",
          "CourseName":"ARK102U_ARKEOLOJİK ALAN YÖNETİMİ",
          "FieldId":8,
          "field":"TARİH",
        "query": {
            "span_near" : {
                "clauses" : [
                    { "span_term" : { "title" : "dünya" } },
                    { "span_term" : { "title" : "mirası" } },
                    { "span_term" : { "title" : "sözleşmesi" } }
                ],
                "slop" : 0,
                "in_order" : true
            }
        }
    }
    '
    
  2. 渗透文件:

    curl -XGET 'localhost:9200/my-index/_search?pretty' -H 'Content-Type: application/json' -d'
    {
        "query" : {
            "percolate" : {
                "field" : "query",
                "document" : {
                    "title" : "Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, dünya mirası sözleşmesi sosyoloji, coğrafya, tarih, etnoloji gibi birçok bilim dalından yararlanarak araştıran ve inceleyen bilim dalıdır. Türkçeye yanlış bir şekilde> \"kazıbilim\" olarak çevrilmiş olsa da kazı, arkeolojik araştırma yöntemlerinden sadece bir tanesidir."
                }
            }
        },
    
        "highlight": {
          "fields": {
            "title": {}
          }
        }
    }
    '
    
  3. 我现在有这个代码:

    import json
    from elasticsearch_dsl import (
    DocType,
    Integer,
    Percolator,
    Text,
    )
    
    # Read the json File
    json_data = open('titles.json').read()
    data = json.loads(json_data)
    
    docs = data['response']['docs']
    
    # Creating a elasticsearch connection
    # connections.create_connection(hosts=['localhost'], port=['9200'], timeout=20)
    """
    curl -XPUT 'localhost:9200/my-index?pretty' -H 'Content-Type: application/json' -d'
    {
        "mappings": {
            "_doc": {
                "properties": {
                    "title": {
                        "type": "text"
                    },
                    "query": {
                        "type": "percolator"
                    }
                }
            }
        }
    }
    '
    
    """
    
    class Documment(DocType):
        course_id = Integer()
        unit_id = Integer()
        # title = Text()
        id = Integer()
        course_name = Text()
        field_id = Integer()
        field = Text()
    
    
        class Meta:
            index = 'titles_index'
    
    
                    properties={
                        'title': Text(),
                        'query': Percolator()
                     }
    
    """
        "query": {
            "span_near" : {
                "clauses" : [
                    { "span_term" : { "title" : "dünya" } },
                    { "span_term" : { "title" : "mirası" } },
                    { "span_term" : { "title" : "sözleşmesi" } }
                ],
                "slop" : 0,
                "in_order" : true
            }
        }
    
    """
    
    for doc in docs:
    
        terms = docs['title'].split(“ ”)
        course_id = docs['CourseId']
        unit_id = docs['UnitId']
        id = docs['id']
        course_name = docs['CourseName']
        field_id = docs['FieldId']
        field = docs['field']
    

    更新 谢谢你的回答,我现在有了这个:

    import json
    
    from elasticsearch_dsl import (
        connections,
        DocType,
        Mapping,
        Percolator,
        Text
    )
    from elasticsearch_dsl.query import (
        SpanNear,
        SpanTerm
    )
    from elasticsearch import Elasticsearch
    
    # Read the json File
    json_data = open('titles.json').read()
    data = json.loads(json_data)
    
    docs = data['response']['docs']
    
    
    # creating a new default elasticsearch connection
    connections.configure(
        default={'hosts': 'localhost:9200'},
    )
    
    
    class Document(DocType):
        title = Text()
        query = Percolator()
    
        class Meta:
            index = 'title-index'
            doc_type = '_doc'
    
        def save(self, **kwargs):
            return super(Document, self).save(**kwargs)
    
    
    # create the mappings in elasticsearch
    Document.init()
    
    # index the query
    for doc in docs:
        terms = doc['title'].split(" ")
        clauses = []
        for term in terms:
            field = SpanTerm(title=term)
            clauses.append(field)
        query = SpanNear(clauses=clauses)
        item = Document(title=doc['title'],query=query)
        item.save()
    

    工作正常,但我现在有两个目标:

    1. 在为dict中的randome项目编制索引后,我收到了下一个错误:
    2. elasticsearch.exceptions.AuthorizationException: TransportError(403, 
      'cluster_block_exception', 'blocked by: [FORBIDDEN/12/index read-only 
      / allow delete (api)];')
      

      我知道我可以使用此命令解决此问题:curl -XPUT -H "Content-Type: application/json" http://localhost:9200/_all/_settings -d '{"index.blocks.read_only_allow_delete": null}'

      更新 最后我解决了删除数据文件夹的问题。

      但是现在我在索引中进行搜索而我什么都没得到:

      >>> text='Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, dünya mirası sözleşmesi sosyoloji, coğrafya, tarih, etnoloji gibi birçok bilim dalından yararlanarak araştıran ve inceleyen bilim dalıdır. Türkçeye yanlış bir şekilde> \"kazıbilim\" olarak çevrilmiş olsa da kazı, arkeolojik araştırma yöntemlerinden sadece bir tanesidir.'
      >>> s = Search().using(client).query("percolate", field='query', document={'title': text}).highlight('title')
      >>> print(s.to_dict())
      {'query': {'percolate': {'field': 'query', 'document': {'title': 'Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, dünya mirası sözleşmesi sosyoloji, coğrafya, tarih, etnoloji gibi birçok bilim dalından yararlanarak araştıran ve inceleyen bilim dalıdır. Türkçeye yanlış bir şekilde> "kazıbilim" olarak çevrilmiş olsa da kazı, arkeolojik araştırma yöntemlerinden sadece bir tanesidir.'}}}, 'highlight': {'fields': {'title': {}}}}
      >>> response = s.execute()
      >>> response
      <Response: {}>
      

      这是我尝试使用curl

       curl -XGET 'localhost:9200/title-index/_search?pretty' -H 'Content-Type: application/json' -d '{  
          "query" : {        
              "percolate" : {       
                  "field" : "query",
                  "document" : {
                      "title" : "Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, dünya mirası sözleşmesi sosyoloji, coğrafya, tarih, etnoloji gibi birçok bilim dalından yararlanarak araştıran ve inceleyen bilim dalıdır. Türkçeye yanlış bir şekilde> \"kazıbilim\" olarak çevrilmiş olsa da kazı, arkeolojik araştırma yöntemlerinden sadece bir tanesidir."
                  }
              }
          },            
          "highlight": {
            "fields": {  
              "title": {}
            }
          }
      }'
      {
        "took" : 3,
        "timed_out" : false,
        "_shards" : {
          "total" : 5,
          "successful" : 5,
          "skipped" : 0,
          "failed" : 0
        },
        "hits" : {
          "total" : 0,
          "max_score" : null,
          "hits" : [ ]
        }
      }
      

      我得到可变的统计数据但不是结果:

      >>> response.to_dict()
      {'took': 9, 'timed_out': False, '_shards': {'total': 5, 'successful': 5, 'skipped': 0, 'failed': 0}, 'hits': {'total': 0, 'max_score': None, 'hits': []}}
      >>> response
      {'took': 12, 'timed_out': False, '_shards': {'total': 5, 'successful': 5, 'skipped': 0, 'failed': 0}, 'hits': {'total': 0, 'max_score': None, 'hits': []}}
      >>> response
      {'took': 12, 'timed_out': False, '_shards': {'total': 5, 'successful': 5, 'skipped': 0, 'failed': 0}, 'hits': {'total': 0, 'max_score': None, 'hits': []}}
      

      任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:3)

第一步是正确的,即映射是正确的。但是,您需要首先索引一个查询,这就是整个渗透点。因此,让我们为您的查询编制索引:

curl -XPUT 'localhost:9200/my-index/_doc/my-span-query?refresh&pretty' -H 'Content-Type: application/json' -d '{           
    "query": {
        "span_near" : {
            "clauses" : [
                { "span_term" : { "title" : "dünya" } },
                { "span_term" : { "title" : "mirası" } },
                { "span_term" : { "title" : "sözleşmesi" } }
            ],
            "slop" : 0,
            "in_order" : true
        }
    }
}'

然后我们的想法是找出哪个查询与您正在渗透的文档相匹配,因此请让文档渗透:

curl -XGET 'localhost:9200/my-index/_search?pretty' -H 'Content-Type: application/json' -d '{
    "query" : {
        "percolate" : {
            "field" : "query",
            "document" : {
                "title" : "Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, dünya mirası sözleşmesi sosyoloji, coğrafya, tarih, etnoloji gibi birçok bilim dalından yararlanarak araştıran ve inceleyen bilim dalıdır. Türkçeye yanlış bir şekilde> \"kazıbilim\" olarak çevrilmiş olsa da kazı, arkeolojik araştırma yöntemlerinden sadece bir tanesidir."
            }
        }
    },
    "highlight": {
      "fields": {
        "title": {}
      }
    }
}'

你会得到这个回复,突出显示你可以看到my-span-query与给定文件匹配的地方:

{
  "took": 104,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.8630463,
    "hits": [
      {
        "_index": "my-index",
        "_type": "_doc",
        "_id": "my-span-query",
        "_score": 0.8630463,
        "_source": {
          "query": {
            "span_near": {
              "clauses": [
                {
                  "span_term": {
                    "title": "dünya"
                  }
                },
                {
                  "span_term": {
                    "title": "mirası"
                  }
                },
                {
                  "span_term": {
                    "title": "sözleşmesi"
                  }
                }
              ],
              "slop": 0,
              "in_order": true
            }
          }
        },
        "fields": {
          "_percolator_document_slot": [
            0
          ]
        },
        "highlight": {
          "title": [
            "Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, <em>dünya</em> <em>mirası</em> <em>sözleşmesi</em> sosyoloji, coğrafya"
          ]
        }
      }
    ]
  }
}

<强>更新

使用elasticsearch-py-dsl同样的事情:

from elasticsearch_dsl import DocType, Text, Percolator
from elasticsearch import Elasticsearch

class Document(DocType):
    title = Text()
    query = Percolator()

    class Meta:
        index = 'my-index'

    def save(self, ** kwargs):
        return super(Document, self).save(** kwargs)

# 1a. create the mappings in elasticsearch
Document.init()

# 1b. or another alternative way of saving the mapping
query_mapping = elasticsearch_dsl.Mapping('_doc')
query_mapping.field('title', 'text')
query_mapping.field('query', 'percolator')
query_mapping.save('my-index')

# 2. index the query
query = Document(query={...your span query here...})
query.save()

# 3. send the percolate query
client = Elasticsearch()
response = client.search(
    index="my-index",
    body={
      "query" : {
        "percolate" : {
            "field" : "query",
            "document" : {
                "title" : "Arkeoloji, arkeolojik yöntemlerle ortaya çıkarılmış kültürleri, dünya mirası sözleşmesi sosyoloji, coğrafya, tarih, etnoloji gibi birçok bilim dalından yararlanarak araştıran ve inceleyen bilim dalıdır. Türkçeye yanlış bir şekilde> \"kazıbilim\" olarak çevrilmiş olsa da kazı, arkeolojik araştırma yöntemlerinden sadece bir tanesidir."
            }
        }
    },
    "highlight": {
      "fields": {
        "title": {}
      }
    }
  }
)

更新2

没有理由将title与查询一起存储,您只需要存储查询,因此您的代码应该是这样的:

# index the query
for doc in docs:
    terms = doc['title'].split(" ")
    clauses = []
    for term in terms:
        field = SpanTerm(title=term)
        clauses.append(field)
    query = SpanNear(clauses=clauses)
    item = Document(query=query)         <-- change this line
    item.save()