在基于班级中心的模糊化算法中如何计算决策属性的班级中心?

时间:2019-02-04 20:55:48

标签: algorithm data-mining decision-tree fuzzy-logic

我遇到了基于课堂中心的模糊化算法on page 16 of this research paper on TRFDT。但是,我无法理解该算法的第2步中发生了什么(论文标题为算法2:模糊化)。如果有人可以举一个小例子来说明这一点,那肯定会有所帮助。

1 个答案:

答案 0 :(得分:1)

从您的问题中尚不清楚您理解文章的哪一部分以及恕我直言,本文的编写方式可能不是最清晰的,所以这将是一个很长的答案。

让我们从本文背后的一些直觉开始。简而言之,我想说的是:“让决策树到处都增加模糊性”。

决策树如何工作?我们有一个分类问题,我们说与其以一种整体的方式分析数据点的所有属性,不如按照树定义的顺序逐一分析它们,并将导航树直到到达某个叶节点。该叶节点处的标签是我们的预测。因此诀窍是如何构建一棵好的树,即好的属性顺序和好的分割点。这是一个经过充分研究的问题,其思想是建立一棵树,以某种度量对尽可能多的信息进行编码。有几种指标,本文使用的熵类似于广泛使用的information gain

下一个想法是,我们可以将分类(即将值拆分为一个类)更改为模糊而不是精确(也称为“酥脆”)。这里的想法是,在许多现实生活中,并非班上的所有成员都具有同等的代表性:有些是“核心”例子,有些是“边缘”例子。如果我们能够抓住这种差异,我们可以提供更好的分类。

最后还有一个问题,即数据点有多相似(通常是或按属性的某些子集),在这里我们也可以有一个模糊的答案(请参见公式6-8)。

因此,主要算法(算法1)的思想与ID3 tree中的思想相同:递归地找到属性a*,该属性以最佳方式对数据进行分类并沿其进行最佳分割属性。主要区别在于如何测量最佳属性选择的信息增益(请参见公式20-24中的启发式方法),并且由于模糊性,通常的“仅剩一个类”的停止规则不再起作用,因此存在另一种熵(25中的Kosko模糊熵)用于确定是否应该停止。

鉴于算法1的这个框架,您可以(或应该)选择很多部分:

  • 如何测量μ(a i τ (C j )(20)中使用的(x)(这是x相对于属性a i j 的良好程度的度量。 >,请注意,此处不在C j 中并且距离C j 中的点也很好),有两个明显的选择:较低的(16和18)和较低的上限(17和19)

  • 如何测量(16-19)中使用的μ(x,y)。假设R由a i 诱导,则变为μ(a i τ (x,y),其中是关于属性a i 的两点之间相似度的度量。您可以在此处选择一种指标(6-8)

  • 如何测量(16-19)中使用的μ C i (y)。这是点y在C i 类中的适合程度的度量。如果您已经有作为模糊分类的数据,则您无需执行任何操作。但是,如果您的输入分类清晰明了,则应该以某种方式产生μ C i (y),这就是 Algorithm 2 的作用

如果x i是μ C j (x i )=“ 1 ∈C j 0否则”,但这一点都不模糊。建立模糊数据的过程称为“模糊化”。算法2背后的思想是,我们假设每个类C j 实际上是属性空间中的某种簇。因此,我们可以衡量隶属度μ C j (x i )作为与x i 到聚类c j 的中心(我们离的越近,成员资格就越高,因此它实际上是距离的倒数)。请注意,由于距离是由属性衡量的,因此您应该以某种方式对属性进行规范化,否则属性之一可能会主导距离。这正是算法2所做的:

  1. 它估计类C j 的聚类中心为该类中所有已知点的center of mass,即每个坐标的所有点的平均值(属性)。

  2. 它计算从每个点x i 到类c j

  3. 的每个估计中心的距离
  4. 在步骤#12中查看公式,它使用距离的平方平方作为接近度的度量,并且仅对值进行归一化,因为对于模糊集Sum [在所有C j ](μ C j (x i ))应该为1