我正在研究一个分类问题,它有不同的传感器。每个传感器都会收集一组数值。
我认为这是一个分类问题,并希望将weka用作此问题的ML工具。但我不确定如何使用weka来处理输入值?哪个分类器最适合这个问题(一个特征的实例是一组数值)?
例如,我有三个传感器A,B,C。我可以将所有传感器中的5个采集数据定义为一个实例吗?例如,A的一个实例是{1,2,3,4,5,6,7},B的一个实例是{3,434,534,213,55,4,7)。 13 C {424,24,24,13,24,5,6}。
非常感谢您抽出时间审核我的问题。
答案 0 :(得分:5)
通常第一个尝试的分类器是 Naive Bayes (你可以在Weka的“Bayes”目录下找到它),因为它速度快,参数少,并且每当训练样本时分类精度都难以击败很小。
随机森林(你可以在Weka的“Tree”目录下找到它)是另一个令人愉快的分类器,因为它几乎处理任何数据。只需运行它,看看它是否能提供更好的结果。可能只需要将树的数量从默认值10增加到更高的值。由于你有7个属性100树应该就够了。
然后我会尝试 k-NN (您可以在Weka的“Lazy”目录下找到它,它被称为“IBk”),因为它通常将数量排在最佳单一分类器的范围内数据集。 k-nn的唯一问题是它对于大型数据集(> 1GB)的扩展性很差,并且需要微调 k (邻居的数量)。默认情况下,此值设置为1,但随着训练样本数量的增加,通常最好将其设置为2到60之间的某个更高的整数值。
最后,对于Naive Bayes和k-nn都表现不佳的一些数据集,最好使用 SVM (在“Functions”下,它被称为“Lib SVM”)。但是,设置SVM的所有参数以获得有竞争力的结果可能很麻烦。因此,当我已经知道期望的分类准确度时,我将它留到最后。如果您有两个以上的类进行分类,则此分类器可能不是最方便的。