Weka如何计算J48和其他分类器中的输出预测?

时间:2015-11-27 02:49:13

标签: weka

我在Weka中使用了J48分类器的输出预测,并通过预测(概率)得到了结果。由于我需要在我的研究中使用这些预测编号,我需要知道weka如何计算这些数字?公式是什么?是否为每个分类器指定了什么?

2 个答案:

答案 0 :(得分:1)

除了 Jan Eglinger 回答。

J48分类器是Weka对臭名昭着的C4.5决策树分类器的实现,这是一种基于ID3的分类算法,使用信息熵进行分类。

训练数据是已分类样本的集S = {s_1, s_2, ...}。每个样本s_i都包含一个p维向量(x_{1,i}, x_{2,i}, ...,x_{p,i}),其中x_j表示样本的属性值或要素,以及s_i所属的类。

在树的每个节点处,C4.5选择最有效地将其样本集分割成富集在一个类或另一个类中的子集的数据的属性。分裂标准是归一化信息增益(熵差)。选择具有最高归一化信息增益的属性来做出决定。然后C4.5算法在较小的子列表上重复出现。

此算法有一些基本情况。

  1. 列表中的所有样本属于同一个类。当这个 发生时,它只是为决策树创建一个叶节点 选择那个班级。

  2. 这些功能都没有提供任何信息。在这种情况下, C4.5使用预期在树上创建一个决策节点 班级的价值。

  3. 遇到以前看不见的课程的实例。同样,C4.5创造了 使用期望值在树上方的决策节点。

  4. 您可以在Weka Api包中找到增益和熵的信息。为此你需要开始配音java weka api并完成每一步。

    一般情况下,如果您不担心算法如何在内部使用高级数学。尝试计算信息增益和熵,并在研究中解释它们,除了决策树,你有两种方法来计算它们的价值。

答案 1 :(得分:0)

  

公式是什么?

Weka的J48分类器是C4.5 algorithm的实现。

  

我需要知道weka如何计算这些数字?

您可以在J48.javaweka.classifiers.trees.j48 package

中找到实施细节