我需要将一些树聚合到"类似的#34;树,但实际上我不知道如何定义两个不同的树之间的距离。对于聚类算法,我的第一个赌注是k-mean,但我不确定我的选择。
我需要评估拓扑差异(树之间)和数据距离(每个节点都包含一个值,因此具有相同结构的两个树可以具有不同的值,因此它们被认为是不同的。)
我的问题非常接近: Clustering tree structured data
但我不想集群堆栈跟踪而是真正的树,我无法做的是编写一个考虑每个节点的布局和内容的距离函数。 我不是问哪个距离函数对我的场景有好处,但是哪个是解决该目标的正确模式。