Question

我正在尝试编写一个java程序，它在Weka中调用CfsSubsetEval类来执行特征子集选择。 CfsSubsetEval使数据集离散化，我试图避免这种情况，因为数据集已经离散化。以下是执行离散化的CfsSubsetEval.java中的行。

m_isNumeric = m_trainInstances.attribute(m_classIndex).isNumeric();

if (!m_isNumeric)
{
    m_disTransform = new Discretize();
    m_disTransform.setUseBetterEncoding(true);
    m_disTransform.setInputFormat(m_trainInstances);
    m_trainInstances = Filter.useFilter(m_trainInstances, m_disTransform);
}

由于class属性在arff文件中定义如下：

@ATTRIBUTE class {true,false}

该属性不是数字，因此执行离散化。

虽然我对Weka实施有一点了解，但我试图将这些行注释掉以跳过离散化。但是，它没有起作用，并报告了以下异常：

java.lang.ArrayIndexOutOfBoundsException: 1
at weka.attributeSelection.CfsSubsetEval.symmUncertCorr(CfsSubsetEval.java:515)
at weka.attributeSelection.CfsSubsetEval.correlate(CfsSubsetEval.java:445)
at weka.attributeSelection.CfsSubsetEval.evaluateSubset(CfsSubsetEval.java:392)
at weka.attributeSelection.BestFirst.search(BestFirst.java:806)
at weka.attributeSelection.AttributeSelection.SelectAttributes(AttributeSelection.java:606)
at selecting_features.runFeatureSelection.main(runFeatureSelection.java:39)

问题是：如何更改CfsSubsetEval.java以使其不会对数据集进行分类？

非常感谢您的帮助。

Answer 1

对称不确定性是一种基于熵的度量，适用于名义属性。 weka.filters.supervised.attribute.Discretize不会改变任何名义属性。你说你的输入属性已经离散化了 - 它们实际上是整数值属性编码为Weka类型的数字吗？如果是这样，那么您应该使用weka.filters.unsupervised.attribute.NumericToNominal预处理数据。这将为您提供一个名义属性，其中包含与数据中该属性的不同值对应的标签列表。完成此操作后，CFS中的离散化过程将保持您的属性不受影响。

干杯，标记

在Weka中，如何阻止CfsSubsetEval离散训练实例？

1 个答案: