可读性分类器的哪种方法

时间:2012-11-25 14:32:11

标签: java weka svm classification

我担心我对分类器背后的理论的理解不深,所以如果我的问题看起来很天真,请原谅我。

目标: 给定一个任意文本,根据年龄范围对其进行分类,这取决于其可读性。所以我的课程将是年龄范围,如(简化):5-6,6-8,8-10,10-14,14-16,成人。 理想情况下,每个文本文档应该获得每个类的概率(不仅是最可能的类)。

当前状态: 功能提取器已就位。它为每个文本文档输出一个特征向量,具有约30个特征,几乎全部为数字,其中几个是名义上的。 我正在尝试使用Weka训练模型,现在使用weka中包含的SMO svm,使用网格搜索进行优化。我也可以使用libSVM,但现在这并不重要。

问题:

  1. 您是否会为此任务使用不同的分类器,尤其是具有每类概率的所需输出?
  2. 训练数据不会分成如此漂亮的不相交范围。这些范围可能重叠。一些文本(手动)分类为10-12范围,其他一些来自不同来源,分类为11-13或8-13等。您将如何处理此问题?修改过滤/培训?不修改它们,但以不同的方式解释结果?

1 个答案:

答案 0 :(得分:1)

您可以尝试进行回归而不是分类 - 基本上您会尝试预测阅读每个文档的“理想”年龄。

这将允许你处理不同的年龄范围,虽然不完全清楚如何表示类 - 可能只是从平均值开始,所以对于8-12,正确的答案将是10等(并且玩周围有“成人”的价值。)

我的猜测是它可以导致对模型的更可靠的估计,并且结果可以很好地解释 - 例如如果你有很多8-12和12-15的例子,并且算法预测11.9,你可以说这对于8-12范围来说“几乎不可理解”。