在django queryset过滤器中使用模糊匹配

时间:2012-02-21 20:49:51

标签: django django-models django-queryset

有没有办法在django queryset过滤器中使用模糊匹配?

我正在寻找Object.objects.filter(fuzzymatch(namevariable)__ gt = .9)

的内容。

或者有没有办法在django查询中使用lambda函数或类似的东西,如果是这样,它会影响性能时间多少(假设我在数据库中有一组稳定的~6000个对象,我想要匹配)

(意识到我应该把我的评论放在问题中)

我需要比包含更强大的东西,类似于difflib的东西。我基本上试图绕过做一个Object.objects.all(),然后是模糊匹配的列表理解。

(虽然我不一定确定这样做比尝试基于某个功能进行过滤要慢得多,所以如果你对此有所了解我很乐意听)

另外,即使它不是我想要的,我也会接受某种标记化的反向包含,比如Object.objects.filter(['Virginia','Tech'] __ in = Object.name) ,将返回像“弗吉尼亚技术学院”这样的东西。虽然不区分大小写,但最好是。

3 个答案:

答案 0 :(得分:10)

当您使用ORM时,需要了解的是您所做的一切都转换为SQL命令,而这是底层数据库的基础查询的性能。一个很好的例子:

SELECT COUNT (*) ...

那快吗?取决于您的数据库是否存储任何记录以提供该信息 - MySQL/MyISAM doesMySQL/InnoDB does not。在英语中 - 这是在MYISAM中的一个查找,在InnoDB中是n。

接下来的事情 - 为了在SQL中有效地进行精确匹配查找,你必须在创建表时告诉它 - 你不能只是期望它理解。为此,SQL具有INDEX语句 - 在django中,在模型的字段选项中使用db_index=True。请记住,这会对写入产生额外的性能影响(创建索引),显然需要额外的存储(对于数据结构),因此您不能“INDEX所有事情”。此外,我认为它不会对模糊匹配有所帮助 - 但无论如何都值得注意。

下一个考虑因素 - 我们如何在SQL中进行模糊匹配?显然LIKECONTAINS允许在SQL中执行一定量的搜索和通配符结果。这些是T-SQL链接 - 为您的数据库服务器翻译:)您可以通过Model.objects.get(fieldname__contains=value)实现此目的,这将生成LIKE SQL或类似的。有许多选项可用于不同的查找。

这对你来说可能是也可能不够强大 - 我不确定。

现在,对于一个大问题:表现。如果你正在进行包含搜索,那么SQL服务器将不得不点击数据库中的所有行 - 不要接受我的话,但这将是我的赌注 - 即使是索引。有6000行,这可能不会那么长;再说一遍,如果你在每个连接到你的应用程序的基础上这样做,它可能会造成减速。

接下来要了解ORM:如果你这样做:

Model.objects.get(fieldname__contains=value)
Model.objects.get(fieldname__contains=value)

您将向数据库服务器发出两个查询。换句话说,ORM并不总是缓存结果 - 所以你可能只想做一个.all()并在内存中搜索。请阅读caching and querysets

在最后一页上,您还会看到Q个对象 - 对于更复杂的查询非常有用。

总结然后:

  • SQL包含一些基本的模糊匹配参数。
  • 这些是否足够取决于您的需求。
  • 它们的执行方式取决于您的SQL服务器 - 明确衡量
  • 是否可以将这些结果缓存到内存中取决于缩放的可能性 - 再次可能值得测量内存提交 - 如果您可以在实例之间共享以及缓存是否经常失效(如果是,不要这样做。)

最终,我首先让你的模糊匹配工作,然后测量,然后调整,然后测量,直到你找出如何提高性能。其中99%我学会了这样做:)

答案 1 :(得分:2)

如果您需要比包含查找更强大的内容,请查看正则表达式查找:https://docs.djangoproject.com/en/1.0/ref/models/querysets/#regex

答案 2 :(得分:2)

使用postgres作为数据库,您可以使用TrigramSimilarity进行模糊搜索,并根据不同的权重对结果进行排名。以下是文档链接:

https://docs.djangoproject.com/en/2.0/ref/contrib/postgres/search/#trigram-similarity

对于全文搜索,您可以参考https://czep.net/17/full-text-search.html