以下是我的问题定义:
给定数据库D,每行具有m个分类属性。给定一个查询,该查询是m个分类属性的向量和匹配的数量k。如何找到所有行id,使得查询的匹配属性数量有效地大于或等于k?
更简单的版本(我认为)是给定一个< = m-categorical属性的向量,如何找到与那些< = m-categorical属性匹配的所有行的id。
在某些问题中(例如this),他们需要在每次查询时扫描整个数据库。我认为这还不够快。我实际上并不确定这种复杂性。
如果可能,我想避免扫描数据库中的所有行。因此,我正在考虑建立某种索引,但我想知道这些是否有任何现有工作?
此外,是否存在与此类似的问题以及它的名称?我想看看。
非常感谢你的帮助。
(关于编码,我主要在Python 2.7中编写代码。)