具有无界属性的C4.5算法

时间:2013-04-24 08:19:18

标签: algorithm machine-learning

VFDT(http://www.cs.washington.edu/dm/vfml/vfdt.html)中C4.5的当前实现,或者就此而言,任何其他实现都使用C4.5格式的文件来提供构造决策树的输入。根据此,属性可以具有以下格式:

连续     如果属性具有连续值。

离散     单词'discrete'后跟一个整数,表示该属性可以采用多少个值。

标识符列表     这是一个具有枚举值的离散属性(这是离散属性的首选方法)。标识符应以逗号分隔。

忽略     表示应忽略该属性 - 不会使用它。

是否有人知道我们如何指定离散值属性,其完整的可能值集太大而无法列出?

例如,“IP-Address”属性可以具有Math.Pow(255,4)可能的离散值; “QueryString”属性可以包含无数个可能的值......等等。

C4.5算法能否处理属性说出100,000个离散不同值的情况,或者其中精确边界未知,但只知道近似值的情况?

感谢。

1 个答案:

答案 0 :(得分:2)

通常的选择是枚举训练集中出现的离散特征的所有值。由于算法永远无法为训练期间未见的值收集足够的统计数据,因此无论您如何实施它们都会被忽略。

请注意,收集此类功能的统计信息非常困难,因此您可能需要考虑不同的表示形式。特别是,多字词的文本字符串可以被标记化并视为bags of words