使用MongoDB搜索实现自动完成功能

时间:2015-04-27 10:16:13

标签: regex mongodb autocomplete

我有一份MongoDB表单

的文档集合
{
    "id": 42,
    "title": "candy can",
    "description": "canada candy canteen",
    "brand": "cannister candid",
    "manufacturer": "candle canvas"
}

我需要通过匹配id以外的字段来实现基于输入搜索字词的自动完成功能。例如,如果输入字词为can,那么我应该在文档中返回所有匹配的

{ hints: ["candy", "can", "canada", "canteen", ...]

我看了this question,但没有帮助。我还尝试搜索如何在多个字段中进行regex搜索并提取匹配的令牌,或者在MongoDB text search中提取匹配的令牌,但无法找到任何帮助。

1 个答案:

答案 0 :(得分:28)

TL;博士

没有简单的解决方案可以满足您的需求,因为普通查询无法修改它们返回的字段。有一个解决方案(使用下面的mapReduce内联而不是对集合进行输出),但除非是非常小的数据库,否则无法实时执行此操作。

问题

如上所述,普通查询无法真正修改它返回的字段。但还有其他问题。如果你想在中途进行正则表达式搜索,你必须索引所有字段,这需要为该功能提供不成比例的RAM。如果您不编制所有字段的索引,则正则表达式搜索会导致collection scan,这意味着必须从磁盘加载每个文档,这将花费太多时间来自动完成方便。此外,请求自动完成的多个同时用户将在后端产生相当大的负载。

解决方案

问题与one I have already answered非常相似:我们需要从多个字段中提取每个单词,删除stop words并将剩余的单词与指向相应文档的链接一起保存在一个集合中找到了单词。现在,为了获得自动完成列表,我们只需查询索引的单词列表。

步骤1:使用map / reduce作业提取单词

db.yourCollection.mapReduce(
  // Map function
  function() {

    // We need to save this in a local var as per scoping problems
    var document = this;

    // You need to expand this according to your needs
    var stopwords = ["the","this","and","or"];

    for(var prop in document) {

      // We are only interested in strings and explicitly not in _id
      if(prop === "_id" || typeof document[prop] !== 'string') {
        continue
      }

      (document[prop]).split(" ").forEach(
        function(word){

          // You might want to adjust this to your needs
          var cleaned = word.replace(/[;,.]/g,"")

          if(
            // We neither want stopwords...
            stopwords.indexOf(cleaned) > -1 ||
            // ...nor string which would evaluate to numbers
            !(isNaN(parseInt(cleaned))) ||
            !(isNaN(parseFloat(cleaned)))
          ) {
            return
          }
          emit(cleaned,document._id)
        }
      ) 
    }
  },
  // Reduce function
  function(k,v){

    // Kind of ugly, but works.
    // Improvements more than welcome!
    var values = { 'documents': []};
    v.forEach(
      function(vs){
        if(values.documents.indexOf(vs)>-1){
          return
        }
        values.documents.push(vs)
      }
    )
    return values
  },

  {
    // We need this for two reasons...
    finalize:

      function(key,reducedValue){

        // First, we ensure that each resulting document
        // has the documents field in order to unify access
        var finalValue = {documents:[]}

        // Second, we ensure that each document is unique in said field
        if(reducedValue.documents) {

          // We filter the existing documents array
          finalValue.documents = reducedValue.documents.filter(

            function(item,pos,self){

              // The default return value
              var loc = -1;

              for(var i=0;i<self.length;i++){
                // We have to do it this way since indexOf only works with primitives

                if(self[i].valueOf() === item.valueOf()){
                  // We have found the value of the current item...
                  loc = i;
                  //... so we are done for now
                  break
                }
              }

              // If the location we found equals the position of item, they are equal
              // If it isn't equal, we have a duplicate
              return loc === pos;
            }
          );
        } else {
          finalValue.documents.push(reducedValue)
        }
        // We have sanitized our data, now we can return it        
        return finalValue

      },
    // Our result are written to a collection called "words"
    out: "words"
  }
)

针对您的示例运行此mapReduce将导致db.words如下所示:

    { "_id" : "can", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "canada", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "candid", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "candle", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "candy", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "cannister", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "canteen", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }
    { "_id" : "canvas", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }

请注意,单个单词是文档的_id。 MongoDB会自动为_id字段编制索引。由于索引试图保存在RAM中,我们可以做一些技巧来加速自动完成并减少服务器的负载。

第2步:查询自动完成

对于自动完成,我们只需要单词,而不需要指向文档的链接。 由于单词是索引的,我们使用covered query - 仅从索引中回答的查询,该索引通常驻留在RAM中。

为了坚持你的例子,我们将使用以下查询来获得自动完成的候选者:

db.words.find({_id:/^can/},{_id:1})

给我们结果

    { "_id" : "can" }
    { "_id" : "canada" }
    { "_id" : "candid" }
    { "_id" : "candle" }
    { "_id" : "candy" }
    { "_id" : "cannister" }
    { "_id" : "canteen" }
    { "_id" : "canvas" }

使用.explain()方法,我们可以验证此查询仅使用索引。

        {
        "cursor" : "BtreeCursor _id_",
        "isMultiKey" : false,
        "n" : 8,
        "nscannedObjects" : 0,
        "nscanned" : 8,
        "nscannedObjectsAllPlans" : 0,
        "nscannedAllPlans" : 8,
        "scanAndOrder" : false,
        "indexOnly" : true,
        "nYields" : 0,
        "nChunkSkips" : 0,
        "millis" : 0,
        "indexBounds" : {
            "_id" : [
                [
                    "can",
                    "cao"
                ],
                [
                    /^can/,
                    /^can/
                ]
            ]
        },
        "server" : "32a63f87666f:27017",
        "filterSet" : false
    }

请注意indexOnly:true字段。

第3步:查询实际文件

虽然我们将不得不做两个查询来获取实际文档,因为我们加快了整个过程,用户体验应该足够好。

步骤3.1:获取words集合

的文档

当用户选择自动完成时,我们必须查询单词的完整文档,以便找到选择用于自动完成的单词源自的文档。

db.words.find({_id:"canteen"})

会产生如下文档:

{ "_id" : "canteen", "value" : { "documents" : [ ObjectId("553e435f20e6afc4b8aa0efb") ] } }

步骤3.2:获取实际文档

使用该文档,我们现在可以显示包含搜索结果的页面,或者像这种情况一样,重定向到您可以获得的实际文档:

db.yourCollection.find({_id:ObjectId("553e435f20e6afc4b8aa0efb")})

注释

虽然这种方法一开始可能看起来很复杂(好吧,mapReduce 有点),但从概念上讲它实际上非常简单。基本上,您正在交易实时结果(除非您花费 很多 的RAM),否则您将无法获得速度。 Imho,这是一个很好的协议。为了使相当昂贵的mapReduce阶段更有效率,实施Incremental mapReduce可能是一种方法 - 改进我公认的黑客mapReduce可能是另一种方法。

最后但并非最不重要的是,这种方式完全是一个相当丑陋的黑客。你可能想深入研究elasticsearch或lucene。这些产品非常适合您想要的产品。