我有以下数据:
{"_index": "simple", "_type": "motorcycle", "_source": {"date": "2018-04-28T10:55", "price": 134900, "sellerName": "Bike MC V\u00e4st AB", "description": "KTM 1290 Super Duke R,Bike G\u00f6teborg M\u00e4tarst\u00e4llning: 498 mil F\u00e4rg: M\u00f6rkbl\u00e5 Typ: Sport Info: M\u00e4rke: KTM 1290 Super Duke R, Bike G\u00f6teborg. F\u00e4rg: Svart. Pris : 134900 kr. \u00c5rsmodell: 2017. M\u00e4tarst\u00e4llning: 498 mil. Senaste service gjordes vid: 498 mil. N\u00e4sta service \u00e4r vid: 1500 mil. Datum f\u00f6r n\u00e4sta besiktning: 2021-04-30. Motoreffekt: 177 HK. Framd\u00e4ck: 60 % kvar, bakd\u00e4ck: 100 % kvar. Utrustning: Arrow slipon inkl original, kraschpuckar, Trackpack. Instruktionsbok, extranyckel medf\u00f6ljer . MC:n har genomg\u00e5tt inbytestest p\u00e5 48 punkter. Nygaranti tom: 2019-04-06. Finansierings ex: 20% kontant = 27059kr, m\u00e5nadsbelopp: 1477kr. MC:n levereras nyservad med nytt bakd\u00e4ck, (KTM 1290 Super Duke R, 1290, sd r, duke, naked, streefighter) Bike G\u00f6teborg 031 3892801", "location": "G\u00f6teborg, Hisingen", "id": 447, "title": "KTM 1290 Super Duke R,Bike G\u00f6teborg", "modelYear": 2017, "url": "https://www.blocket.se/goteborg/KTM_1290_Super_Duke_R_Bike_Goteborg_79076153.htm?ca=11&w=3", "vehicleType": "Sport"}}
{"_index": "simple", "_type": "motorcycle", "_source": {"date": "2018-04-27T16:19", "price": 125000, "sellerName": "Henrik \u00d6rtenwall", "description": "Harley Davidson Night Rod VRSCDX. Fula, breda, l\u00e5nga baksk\u00e4rmen bytt mot en kortare. Utbytta blinkers fram + bak samt baklampa. Nytt rakare, l\u00e4gre, svart styre. M\u00e5nga sm\u00e5 detaljer som bytta fotpinnar, gaffelbensskydd etc. Ca 2800 mil.", "location": "G\u00f6teborg, V\u00e4stra Centrum", "id": 753, "title": "HD Night Rod", "modelYear": 2007, "url": "https://www.blocket.se/goteborg/HD_Night_Rod_79065407.htm?ca=11&w=3", "vehicleType": "Custom"}}
我的索引是这样的:
def create_index(self, file_path):
"""
Takes path to file containing JSON-formatted data
and indexes into Elasticsearch index.
"""
print('Creating index "{}"'.format(INDEX_NAME))
request_body = {
"settings":{
"index":{
"number_of_shards":1,
"number_of_replicas":0
}
},
"mappings":{
"motorcycle":{
"properties":{
"location": {
"type":"keyword",
},
"vehicleType": {
"type": "keyword",
},
"description":{
"type":"text",
"analyzer":"swedish",
},
}
}
}
}
self.es.indices.create(index = INDEX_NAME, body = request_body)
f_in = open(PATH_TO_DATASET, "r")
actions = (json.loads(line) for line in f_in)
print("Performed bulk index: {}".format(bulk(self.es, actions)))
self.es.indices.refresh(index = "simple")
数据有两个文件。它们都有一个位置字段,在第一个文档中设置为"G\u00f6teborg, Hisingen"
,在第二个文档中设置为"G\u00f6teborg, V\u00e4stra Centrum"
。 location
字段是关键字字段,您可以在我的代码中看到。在开始时,我使用filter
来过滤location
字段:
{
"query": {
"bool": {
"filter": [
{
"term": {
"location": "PlaceName"
}
}
]
}
}
}
但是,这要求PlaceName
与文档的location
字段完全相同才能返回。那不是我想要的。 我想要返回location
字段包含placeName
的任何文档。例如,如果我为位置字段指定G\u00f6teborg
,则应匹配上述数据中的两个文档。此外,我不希望这会影响文档的分数,因此我可以简单地将其用作过滤器。
这是我的尝试:
{
"query": {
"bool": {
"must":{
"term": {
"location": "G\u00f6teborg",
"boost":0
}
}
}
}
}
由于boost
字段,此查询无效(返回错误消息)。如果我删除boost
,则查询不会给出匹配,这也不好。
这是什么问题?如何实现我想要的功能?
编辑:
此查询也不会返回任何结果:
{
"query": {
"term": {
"location":"G\u00f6teborg"
}
}
}
PS。将G\u00f6teborg
更改为Göteborg
会得到相同的结果。
编辑2:
{
"query": {
"match": {
"location":{
"query": "G\u00f6teborg",
"boost": 0
}
}
}
}
此查询用于返回分数为0的所有相关文档。
答案 0 :(得分:1)
您应该将location
字段的类型更改为text
- keyword
类型仅允许完全匹配,但text
字段将执行analysis在输入上使用标准分析器,并且作为该分析的一部分,它执行将文本分割为单词的标记化,因此当您查询该字段时,您还可以匹配部分内容。
除此之外,您还希望将查询类型从term
更改为match
,因为您还希望将分析器应用于查询。
查询示例:
{
"query": {
"bool": {
"filter": [
{
"match": {
"location": "PlaceName"
}
}
]
}
}
}