对于我正在考虑的应用程序,会有一个大的(100,000+)'数据库'树(想想编程语言中的表达式,或S表达式),我需要查询该数据库中的表达式匹配特定的给定表达式。
在详细说明我想要的内容之前,请注意我感谢任何信息,这些信息与索引大量树木以优化子树查找有关。
在我的特定情况下(对于Metamath证明助手使用的后端),表达式具有以下结构(以类似Haskell的表示法):
<attr name="drawableLeftCompat" format="reference" />
<attr name="drawableRightCompat" format="reference" />
<attr name="drawableTopCompat" format="reference" />
<attr name="drawableBottomCompat" format="reference" />
<declare-styleable name="CustomTextView">
<attr name="font" format="string" />
<attr name="drawableLeftCompat" />
<attr name="drawableRightCompat" />
<attr name="drawableTopCompat" />
<attr name="drawableBottomCompat" />
</declare-styleable>
或作为S表达形式的BNF:
data Expression = Placeholder Id | VarName Id | ConstName Id [Expression]
其中Expression = '?' Id | Id | '(' Id Expression* ')'
是某种标识符。
例如,我可以拥有一个包含
等表达式的数据库Id
在此上下文中,两个表达式匹配如果通过替换占位符的表达式可以使它们相等。因此,在上面的迷你数据库中查找(equiv ?ph ?ps)
(not (in (appl (sqrt) (2)) (Q)))
(equiv (eq ?A ?B) (forall ?x (equiv (in ?x ?A) (in ?x ?B))))
将导致第一个和最后一个表达式。
再次说明:如何在一大堆带有占位符的(表达式)树中实现快速查找?我可以使用什么样的索引数据结构?
答案 0 :(得分:0)
我将使用trie实现查找。每个密钥将包含以下内容之一:
这些应该以某种方式排序-可能是占位符,然后是所有ConstNames(字母顺序),然后是变量(作用域顺序,然后是参数顺序),然后是ConstValues(数字顺序)。只要在Trie中有具体的使用顺序,就可以了。
遍历表达式的树,在遇到它们时将适当的键注入到trie中。对要插入到数据结构中的所有表达式执行此操作。当需要查询它时,您可以以类似的方式遍历trie,但有一些新规则。
现在,这确实意味着当您遇到占位符时,搜索空间可能会在某种程度上“爆炸”,但是您可以做一件事来在实践中尝试减轻这种情况。以广度优先的方式遍历表达式的树(在构造trie和查询时)。这意味着,如果其中一个参数是占位符,则无需完全深入搜索迄今为止与该表达式 匹配的每个子树-您可以跳至下一个参数-可能不会是一个占位符,因此将大大缩小搜索空间(与匹配“一切”相比)。
出于完整性考虑,让我们举一个例子
(not (in (appl (sqrt) (2)) (Q)))
并从中输入一个特里文字-
not -> in -> apply -> "Q" -> sqrt -> 2
为此添加(not (in ?ph E))
会导致-
not -> in -> apply -> "Q" -> sqrt -> 2
\-> ?ph -> "E"
以这种方式继续,将表达式注入到trie中。还要以这种方式遍历查询,直到到达搜索结尾为止,然后返回匹配的内容。
注意-这些条目的唯一性是基于您不必支持可变参数功能的假设。如果这样做,请在每个键上附加一些上下文信息(有关如何执行此操作的信息,请阅读下几段),以区分将哪些参数传递给哪个函数
我掩盖了一个过度变量的细节。如果您只希望它们是完全相同的变量名来匹配,则无需任何工作。但这可能不是您想要的。您可能希望它与通用变量匹配,只要它们彼此“一致”即可。执行此操作的方法是为每个变量分配一个标识符,该标识符表示最初定义该变量的范围。
最简单的方法就是根据其祖先的参数顺序串联一个标识符。也就是说,如果首先将变量定义为函数的 second 参数,而该参数是根函数的 fifth 参数,则我们可以将其标记为{{1} }或(5, 2)
,从直觉上讲更合理。无论哪种方式,这都将确保变量被赋予一致的标识符,而不管其他地方的其他变量/函数如何。然后像往常一样使用这个新变量名。