Question

最近我开始使用ElasticSearch，我打算坚持使用它来构建我正在建立的服务。

基本上我有以下类型：

搜索
优惠
优惠价格

每个搜索都有一组信息加上SID（搜索ID），每个商品都有一个OID（商品ID）加上搜索的SID和一组价格。

我以异步方式接收数据，以避免使用_update，而不是在商品中包含一系列价格并更新它，每个价格都存储在一个单独的文档中，并包含搜索ID，商品ID和价格本身。

我愿意：

按SID过滤
由OID汇总
按价格对汇总进行排序

我怎么能这样做？任何提示？我正在阅读有关如何聚合的文档，但我完全不知道：（

修改

这里有一个示例数据集

SEARCHES（uuid是sid）

{
    'sid_1': { 'q': 'bread', 'sid': 'sid_1' },
    'sid_2': { 'q': 'milk', 'sid': 'sid_2' },
    'sid_3': { 'q': 'donuts', 'sid': 'sid_3' }
}

提供（uuid是sid＃oid）

{
    'sid_1#kamut-bread': { 'name': 'kamut bread', 'sid': 'sid_1', 'oid': 'kamut-bread' },
    'sid_1#chocolate-bread': { 'name': 'chocolate bread', 'sid': 'sid_1', 'oid': 'chocolate-bread' },
    'sid_1#plastic-bread': { 'name': 'plastic bread', 'sid': 'sid_1', 'oid': 'plastic-bread' },
    'sid_2#soya-milk': { 'name': 'soya milk', 'sid': 'sid_2', 'oid': 'soya-milk' },
    'sid_2#vaccine-milk': { 'name': 'vaccine milk', 'sid': 'sid_2', 'oid': 'vaccine-milk' },
    'sid_2#milk': { 'name': 'milk', 'sid': 'sid_2', 'oid': 'milk' },
    'sid_3#cream-donuts': { 'name': 'cream donuts', 'sid': 'sid_3', 'oid': 'cream-donuts' },
    'sid_3#chocolate-donuts': { 'name': 'chocolate donuts', 'sid': 'sid_3', 'oid': 'chocolate-donuts' },
    'sid_3#square-donuts': { 'name': 'square donuts', 'sid': 'sid_3', 'oid': 'square-donuts' }
}

OFFERS_PRICES（uuid是sid＃oid＃partner）

{
    'sid_1#kamut-bread#amazon': { 'partner': 'amazon', 'sid': 'sid_1', 'oid': 'kamut-bread', 'price': 10.1, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#kamut-bread#store2': { 'partner': 'store2', 'sid': 'sid_1', 'oid': 'kamut-bread', 'price': 11.1, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#kamut-bread#store3': { 'partner': 'store3', 'sid': 'sid_1', 'oid': 'kamut-bread', 'price': 10.4, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#kamut-bread#store4': { 'partner': 'store4', 'sid': 'sid_1', 'oid': 'kamut-bread', 'price': 10.8, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#chocolate-bread#amazon': { 'partner': 'amazon', 'sid': 'sid_1', 'oid': 'chocolate-bread', 'price': 7.1, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#chocolate-bread#store2': { 'partner': 'store2', 'sid': 'sid_1', 'oid': 'chocolate-bread', 'price': 7.1, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#chocolate-bread#store3': { 'partner': 'store3', 'sid': 'sid_1', 'oid': 'chocolate-bread', 'price': 8.4, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#chocolate-bread#store4': { 'partner': 'store4', 'sid': 'sid_1', 'oid': 'chocolate-bread', 'price': 9.8, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#plastic-bread#amazon': { 'partner': 'amazon', 'sid': 'sid_1', 'oid': 'plastic-bread', 'price': 70.1, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#plastic-bread#store2': { 'partner': 'store2', 'sid': 'sid_1', 'oid': 'plastic-bread', 'price': 75.1, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#plastic-bread#store3': { 'partner': 'store3', 'sid': 'sid_1', 'oid': 'plastic-bread', 'price': 88.4, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } },
    'sid_1#plastic-bread#store4': { 'partner': 'store4', 'sid': 'sid_1', 'oid': 'plastic-bread', 'price': 97.8, 'fees': { 'mastercard': 1, 'visa': 1, 'paypal': 2, 'wiretransfer': 0 } }
    ...
}

出于性能原因，代码不会聚合数据，而是将它们单独返回（搜索，优惠和优惠价格），前端将聚合它们，这将允许我（几乎）流式传输数据直接来自弹性，无需预先详细说明。

在提取搜索和优惠之后，我想：

提取SID sid_1的价格
按OID分组价格
按价格（或按价格+特定费用）对聚合进行排序，但我可以用groovy来处理这个问题。

Answer 1

我发现了聚合类型scripted_metric的存在，在玩完之后我想出了这个查询

{
    "size": 0,
    "query" : {
        "match_all" : {}
    },

    "aggs": {
        "offer_prices": {
            "scripted_metric": {
                "init_script" : "_agg[\"offers_prices\"] = [:].withDefault{[:]}",

                "map_script" : "def parent = doc._parent.value; def partner = doc.partner.value; def price = doc.price.value; if (!_agg.offers_prices.containsKey(parent)) { _agg.offers_prices[parent] = [ parent: parent, sid: doc.sid.value, oid: doc.oid.value, bestPrice: Double.MAX_VALUE, bestPartner: null, partners: [:] ]; }; _agg.offers_prices[parent].partners[partner] = [ \"partner\": partner, \"price\": price, \"ccfees\": _source.ccfees ]; if (_agg.offers_prices[parent].bestPrice > price) { _agg.offers_prices[parent].bestPrice = price; _agg.offers_prices[parent].bestPartner = partner; }", 

                "combine_script" : "return _agg.offers_prices;",

                "reduce_script" : "def offers_prices_all = [:]; _aggs.each { offers_prices_per_shard -> offers_prices_per_shard.each { oid, offers_prices -> offers_prices_all[oid] = offers_prices}; }; offers_prices_all = offers_prices_all.sort { a, b -> a.value.bestPrice <=> b.value.bestPrice }; return offers_prices_all;"

            }
        }
    }
}

这不是最终版本，我必须做一些修复，我必须测试性能，但它似乎是一个可能的解决方案：

使用_parent
计算汇总的最佳价格
按bestPrice

还是todo：

按bestPrice +费用
按价格对单个聚合的合作伙伴列表进行排序
测试性能和资源消耗

注意：

我添加了_parent映射，我使用文档的_parent属性对数据进行分组，但是可以手动构建它连接sid和oid
该脚本正在使用属性ccfees，但在上面发布的示例数据集中称为费用

弹性搜索中的聚合和排序

1 个答案: