MongoDB不区分大小写的索引"以"开头性能问题

时间:2016-08-26 06:53:49

标签: mongodb mongodb-query

在发现3.3.11 supports case insensitive index(使用整理)后,我重建了我的数据库,其中有4000万条记录。替代方案是添加例如特定于不区分大小写搜索的小写字段并将其编入索引。

我所做的是要求MongoDB在创建时支持我的收藏品整理为suggested here。所以我这样做是为了使整个集合不区分大小写:

db.createCollection("users", {collation:{locale:"en",strength:1}})

加载集合后,我尝试了直接查询,如:

db.users.find({full_name:"john doe"})

......那些在〜10ms内返回50个结果。它不区分大小写 - 所以一切都很好。但后来我尝试了类似的事情:

db.users.find({full_name:/^john/})

...或...

db.users.find({full_name:/^john/i})

......这需要超过5分钟。我很失望。在执行explain()之后,事实证明索引显然正在使用,但查询仍然需要太长时间才能执行。这可归因于错误或不完整的开发版本,还是我做了一些根本错误的事情?

当我正在做"以"开头正则表达式搜索,查询应该是闪电般快速。有什么想法吗?

1 个答案:

答案 0 :(得分:3)

编辑:有一个可行的解决方法。基本上,如果您要搜索的单词是“bob”,则可以搜索$ lt:“boc”,(将最后一个字符增加一个),以及$ gte“bob”。这将使用索引。您可以使用我在下面创建的以下函数(警告它不一定没有错误,但几乎可以工作),如下所示:

var searchCriteria = {};
addStartsWithQuery(searchCriteria, "firstName", "bo");
People.find(searchCriteria).then(...);

//searchCriteria will be
/*
{
    $and:[
         {firstName:{$gte:"bo"}},
         {firstName:{$lt:"bp"}}
    ]
}
*/


//now library functions that will automatically generate the correct query and add it to `searchCriteria`.  Of course for complicated queries you may have to modifiy it a bit.
function getEndStr(str) {
    var endStrArr = str.toLocaleLowerCase('en-US').split("");
    for (var i = endStrArr.length - 1; i >= 0; --i) {
        var lastChar = endStrArr[i];
        if(lastChar === "z"){
            return endStrArr.join("") + "zzzzzzzzzzzz";
        }
        var nextChar = String.fromCharCode(lastChar.charCodeAt(0) + 1);
        if (nextChar === ":")
            nextChar = "a";
        if (nextChar !== false) {
            endStrArr[i] = nextChar;
            return endStrArr.join("");
        }
        endStrArr.pop();
    }
}
function addStartsWithQuery(searchCriteria, propertyName, str) {
    if (!(typeof str === 'string') || !str.length)
        return;
    var endStr = getEndStr(str);
    if (endStr) {
        if (!searchCriteria.$and)
            searchCriteria.$and = [];
        searchCriteria.$and.push({
            [propertyName]: {
                $gte: str
            }
        });
        searchCriteria.$and.push({
            [propertyName]: {
                $lt: endStr
            }
        });
    } else {
        searchCriteria[propertyName] = {
            $gte: str
        }
    }
}

事实证明,MongoDB正式不支持它!我已将其与JIRA中的一个问题联系起来,他们明确了这一点。不幸的是,这使得整理显着减少了用处。让我们尽快解决这个问题吧!从技术上讲,我注意到即使它使用索引,索引也使用"[\"\", {})",作为索引边界之一,它总是返回索引中的所有项,因此索引扫描是无用的。查询的下一个阶段会像平常那样过滤这些结果。

https://jira.mongodb.org/browse/DOCS-9933

投票支持这个问题让他们解决它! https://jira.mongodb.org/browse/SERVER-29865