嗨想问一下WEKA项目。 ADDId过滤器可以大大增加结果。 为了增加结果是合法与否? 答案对我来说至关重要。三江源。
答案 0 :(得分:1)
这种行为存在于许多问题中;每个实例的唯一标识符可以改善结果。但错误的一面是过度拟合。如果分类器已经知道特定ID对应于一个类,并且其他ID对应于不同的类,则它已经过度拟合数据并且在实践中(在分类期间)它是无用的,因为新的,先前看不见的实例将具有不同的ID。训练集中的那些人。
您可以通过检查文本格式(规则,决策树等)来检查分类器中是否存在这种情况。如果您发现例如像if ID=237623 the class=X
之类的规则,由于ID属性,分类器已经过度拟合了数据。