将trigram与django 1.10中的排名搜索相结合

时间:2016-06-16 12:57:49

标签: python django postgresql

我们在django 1.10中进行搜索,我们需要使用trigram搜索进行用户排名搜索。

我们的代码是:

def get_queryset(self):
        search = self.request.GET.get('text', '')
        vector = SearchVector('name',weight='A',
            config=settings.SEARCH_LANGS[
                settings.LANGUAGE
            ],
            ) + SearchVector(
            'content',
            weight='B',
            config=settings.SEARCH_LANGS[
                settings.LANGUAGE
            ],
            )
        query = SearchQuery(search)
        return Article.objects.annotate(
            rank=SearchRank(
                vector,
                query
                ),
            similarity=TrigramSimilarity(
                'name', search
                ) + TrigramSimilarity(
                'content', search
                ),
            ).filter(
            rank__gte=0.3
            ).filter(
            similarity__gt=0.3
            ).order_by(
            '-similarity'
            )[:20]

但是这段代码没有返回任何查询,没有使用trigram我们没有问题,但是,在它们之间我们无法得到查询。

我们如何在django 1.10中组合trigram和排名搜索?

2 个答案:

答案 0 :(得分:14)

我们更深入地了解了搜索如何衡量权重。

根据documents,您可以根据字段分配权重,甚至可以为其分配权重,同样我们也可以使用trigrams按相似度或距离进行过滤。

然而,没有指定使用这两者的例子,并进一步调查它的理解,也不是权重工作。

一个小逻辑告诉我们,如果我们总共寻找一个共同的词,我们都会排在0,相似性的变化远远超过范围,但往往会降低范围的值。

现在,根据我们的理解,文本搜索是基于您要过滤的字段中包含的文本进行的,甚至超过了配置中的语言。例如,使用标题,使用的模型有标题字段和内容字段,其最常见的单词是how change,审核加权单词(范围作为查询,因此我们可以使用valuesvalues_list审查排名和相似度,这是数值,我们可以查看加权单词查看向量对象),我们看到如果分配权重,但是分裂单词的组合:找到'perfil'和'cambi',但是我们没有找到'cambiar'或'como';然而,所有模型都包含与'lorem ipsun ...'相同的文本,以及该句子的所有单词,如果它们是完整的并且具有权重B;我们最后得出结论,搜索是根据字段的内容进行的,以便过滤超过我们配置搜索的语言。

也就是说,我们在这里展示了我们用于所有事情的代码。

首先,我们需要在启用数据库所需的范围内使用Trigrams:

from __future__ import unicode_literals

from django.db import migrations, models
import django.db.models.deletion
from django.contrib.postgres.operations import UnaccentExtension
from django.contrib.postgres.operations import TrigramExtension

class Migration(migrations.Migration):

    initial = True

    dependencies = [
    ]

    operations = [
      ...
      TrigramExtension(),
      UnaccentExtension(),

    ]

导入从postgres包迁移的操作,并从任何文件迁移中运行。

下一步是更改问题的代码,以便过滤器在第二个失败时返回其中一个查询:

def get_queryset(self):
        search_query = SearchQuery(self.request.GET.get('q', ''))

        vector = SearchVector(
            'name',
            weight='A',
            config=settings.SEARCH_LANGS[settings.LANGUAGE_CODE],
        ) + SearchVector(
            'content',
            weight='B',
            config=settings.SEARCH_LANGS[settings.LANGUAGE_CODE],
        )

        if self.request.user.is_authenticated:
            queryset = Article.actives.all()
        else:
            queryset = Article.publics.all()

        return queryset.annotate(
          rank=SearchRank(vector, search_query)
          similarity=TrigramSimilarity(
              'name', search_query
            ) + TrigramSimilarity(
              'content', search_query
            ),
        ).filter(Q(rank__gte=0.3) | Q(similarity__gt=0.3)).order_by('-rank')[:20]

上述代码的问题是一个接一个地渗透一个查询,如果选择的单词没有出现在两个搜索中的任何一个中,问题就更大了。我们使用Q对象来使用OR连接器进行过滤,这样如果其中一个没有返回所需的值,请将另一个发送到位。

这已经足够了,但是他们欢迎澄清这些权重和三角形如何工作,以揭示最新版Django提供的这一新优势的大部分。

答案 1 :(得分:0)

这样的事情对你有用……它是一个博客的搜索表单。但我不知道为什么 TrigramSimilarity 只对标题起作用,而对身体不起作用?

search_vector = SearchVector('title', weight='A') + SearchVector('body', weight='B')
search_query = SearchQuery(query)
rank = SearchRank(search_vector, search_query)  
results = Post.published.annotate(rank = SearchRank(search_vector, 
          search_query)).filter(rank__gte=0.2).order_by('-rank')

      if results:
        results = results
      else:
        results = Post.published.annotate(similarity = TrigramSimilarity('title', 
                  query)).filter(similarity__gte=0.1).order_by('-similarity')