我遇到了基于课堂中心的模糊化算法on page 16 of this research paper on TRFDT。但是,我无法理解该算法的第2步中发生了什么(论文标题为算法2:模糊化)。如果有人可以举一个小例子来说明这一点,那肯定会有所帮助。
答案 0 :(得分:1)
从您的问题中尚不清楚您理解文章的哪一部分以及恕我直言,本文的编写方式可能不是最清晰的,所以这将是一个很长的答案。
让我们从本文背后的一些直觉开始。简而言之,我想说的是:“让决策树到处都增加模糊性”。
决策树如何工作?我们有一个分类问题,我们说与其以一种整体的方式分析数据点的所有属性,不如按照树定义的顺序逐一分析它们,并将导航树直到到达某个叶节点。该叶节点处的标签是我们的预测。因此诀窍是如何构建一棵好的树,即好的属性顺序和好的分割点。这是一个经过充分研究的问题,其思想是建立一棵树,以某种度量对尽可能多的信息进行编码。有几种指标,本文使用的熵类似于广泛使用的information gain。
下一个想法是,我们可以将分类(即将值拆分为一个类)更改为模糊而不是精确(也称为“酥脆”)。这里的想法是,在许多现实生活中,并非班上的所有成员都具有同等的代表性:有些是“核心”例子,有些是“边缘”例子。如果我们能够抓住这种差异,我们可以提供更好的分类。
最后还有一个问题,即数据点有多相似(通常是或按属性的某些子集),在这里我们也可以有一个模糊的答案(请参见公式6-8)。
因此,主要算法(算法1)的思想与ID3 tree中的思想相同:递归地找到属性a*
,该属性以最佳方式对数据进行分类并沿其进行最佳分割属性。主要区别在于如何测量最佳属性选择的信息增益(请参见公式20-24中的启发式方法),并且由于模糊性,通常的“仅剩一个类”的停止规则不再起作用,因此存在另一种熵(25中的Kosko模糊熵)用于确定是否应该停止。
鉴于算法1的这个框架,您可以(或应该)选择很多部分:
如何测量μ(a i )τ (C j )(20)中使用的(x)(这是x
相对于属性a i j 的良好程度的度量。 >,请注意,此处不在C j 中并且距离C j 中的点也很好),有两个明显的选择:较低的(16和18)和较低的上限(17和19)
如何测量(16-19)中使用的μRτ(x,y)。假设R由a i 诱导,则变为μ(a i )τ (x,y),其中是关于属性a i 的两点之间相似度的度量。您可以在此处选择一种指标(6-8)
如何测量(16-19)中使用的μ C i (y)。这是点y
在C i 类中的适合程度的度量。如果您已经有作为模糊分类的数据,则您无需执行任何操作。但是,如果您的输入分类清晰明了,则应该以某种方式产生μ C i (y),这就是 Algorithm 2 的作用
如果x i是μ C j (x i )=“ 1
∈C j 和0
否则”,但这一点都不模糊。建立模糊数据的过程称为“模糊化”。算法2背后的思想是,我们假设每个类C j 实际上是属性空间中的某种簇。因此,我们可以衡量隶属度μ C j (x i )作为与x i 到聚类c j 的中心(我们离的越近,成员资格就越高,因此它实际上是距离的倒数)。请注意,由于距离是由属性衡量的,因此您应该以某种方式对属性进行规范化,否则属性之一可能会主导距离。这正是算法2所做的:
它估计类C j 的聚类中心为该类中所有已知点的center of mass,即每个坐标的所有点的平均值(属性)。
它计算从每个点x i 到类c j
在步骤#12中查看公式,它使用距离的平方平方作为接近度的度量,并且仅对值进行归一化,因为对于模糊集Sum [在所有C j ](μ C j (x i ))应该为1