树木之间的相似之处

时间:2014-02-20 04:04:54

标签: algorithm tree string-matching similarity

我正在研究图表上关键字搜索结果的聚类问题。结果以树的形式出现,我需要根据它们的相似性将这些三个星团分组。树的每个节点都有两个键,一个是SQL数据库中的表名(语义形式),第二个是该表(标签)记录的实际值。

我使用Zhang和Shasha,Klein,Demaine和RTED算法根据这两个键找到树之间的树编辑距离。所有算法都不使用删除/插入/重新标记操作,需要修改树以使它们看起来相同。

**我想要一些更多的矩阵来检查两棵树之间的相似性,例如节点数量,平均扇出率以及更多以便我可以对这些矩阵进行加权平均以达到非常好的相似性矩阵,该矩阵考虑了树(结构)的语义形式和树中包含的信息(标签)在节点)。

你能告诉我一些出路或一些可以提供帮助的文献吗?**

任何人都可以向我推荐一些好文章

1 个答案:

答案 0 :(得分:0)

即使你在每对可能的树之间有(伪)距离,这实际上并不是你所追求的。您实际上想要进行无监督学习(聚类),其中您将结构学习与参数学习相结合。要执行推理的数据结构类型是树。假设"一些度量空间"对于您的聚类方法,您将介绍一些不是必需的东西。找到合适的距离度量是一个非常困难的问题。我将在以下段落中指出不同的方向,并希望他们可以帮助您。

以下不是表示此问题的唯一方法...您可以在树节点上的所有可能值的树上看到您的问题为贝叶斯推断。您可能会比其他树更容易了解哪种树更有可能和/或哪种树比其他树更有可能。贝叶斯方法允许您为两者定义先验。

您可能希望阅读的一篇文章是"使用树木的混合物学习#34;作者:梅拉和约旦,2000年(pdf)。它解释了可以使用可分解的先验:树结构与值/参数具有不同的先验(这当然意味着在这里有一些独立的假设)。

我知道你暗示了一般的扇出等启发式方法,但你可能会发现看看这些贝叶斯推理的新应用是值得的。注意,例如,在非参数贝叶斯方法中,推理无限树也是可行的,例如,如由Hutter撰写,2004年(pdf)!