为更高维度的数据设计分层树

时间:2012-12-16 05:52:20

标签: tree hierarchy dimensions

给定1维随机数集,我们只需遍历集合,然后将数据推送到树中。在一个方面,这很简单。我们可以简单地比较数据的值,并决定数据在树中传播的位置。

然而,对于更高的维度,距离开始变得模糊,并且更难以确定哪些数据应该在树的下方。

事实上,如果我们要设计一个包含一组高维向量的分层树(例如,128维SIFT特征),我们如何确定每个n维向量中的哪一个应该去哪个子树等等?我们做了些什么?

1 个答案:

答案 0 :(得分:1)

随机树

random tree是分类或聚类的常用技术。

以下是如何决定如何拆分树的每个节点:

  • 从128个SIFT维度中选择一个随机k(小的,如5)​​。
  • 确定哪些k维提供了最佳的数据分割。

因此,每个节点都需要存储:

  1. 要使用的维度
  2. 适用于该维度的决策阈值
  3. 叶子将存储:

    • 类预测,或关于最终在该叶节点处的数据点的一些统计信息。