VFDT(http://www.cs.washington.edu/dm/vfml/vfdt.html)中C4.5的当前实现,或者就此而言,任何其他实现都使用C4.5格式的文件来提供构造决策树的输入。根据此,属性可以具有以下格式:
连续 如果属性具有连续值。
离散 单词'discrete'后跟一个整数,表示该属性可以采用多少个值。
标识符列表 这是一个具有枚举值的离散属性(这是离散属性的首选方法)。标识符应以逗号分隔。
忽略 表示应忽略该属性 - 不会使用它。
是否有人知道我们如何指定离散值属性,其完整的可能值集太大而无法列出?
例如,“IP-Address”属性可以具有Math.Pow(255,4)可能的离散值; “QueryString”属性可以包含无数个可能的值......等等。
C4.5算法能否处理属性说出100,000个离散不同值的情况,或者其中精确边界未知,但只知道近似值的情况?
感谢。
答案 0 :(得分:2)
通常的选择是枚举训练集中出现的离散特征的所有值。由于算法永远无法为训练期间未见的值收集足够的统计数据,因此无论您如何实施它们都会被忽略。
请注意,收集此类功能的统计信息非常困难,因此您可能需要考虑不同的表示形式。特别是,多字词的文本字符串可以被标记化并视为bags of words。