如何自动优化Weka中的分类器以使给定的类包含100%可靠的数据?

时间:2015-10-05 14:26:37

标签: classification weka

我有两个(或三个)课程,每个课程只能拥有一个标签 我想优化(如果可能的话自动)参数和分类器的阈值,以便我的第一个类只包含100%可靠的数据。即使它包含少量实例。

我不介意其余课程包含误报或正确拒绝 我不介意有未分类的数据。

我一直在搜索stackoverflow和weka的维基,但也许我对weka的了解不足让我错过了一些关键词。
我还尝试用着名的" iris"数据库,但我认为在这种情况下,任何类都可以100%肯定。

然而,我只是成功地测试了多个分类器并手动调整它们,但是我的第一堂课没有100%正确。 (我在weka报告给出的混淆矩阵中检查了这个结果。) 不知何故,我知道我的班级可以包含100%可靠的数据,因为我设法在Matlab中手动设置简单的阈值。但我想尝试一个更大的数据库,以获得更好的阈值并使用weka的力量。

任何建议都会有所帮助,谢谢!

1 个答案:

答案 0 :(得分:0)

您可能需要“元”分类器中的“成本敏感分类器”。 如果你在资源管理器中工作,这是你得到的对话框。

选择你的“分类器”(超越ZeroR :))。 设置“成本矩阵”。对于2类问题,这将是2x2矩阵。 通过将一个非对角线分量设置得非常大(>> 1,让我们说1000),您可以确保错误分类一个类(您的“第一个”类)比错误分类另一个类要贵1000倍。这应该做的工作。

enter image description here