我担心我对分类器背后的理论的理解不深,所以如果我的问题看起来很天真,请原谅我。
目标: 给定一个任意文本,根据年龄范围对其进行分类,这取决于其可读性。所以我的课程将是年龄范围,如(简化):5-6,6-8,8-10,10-14,14-16,成人。 理想情况下,每个文本文档应该获得每个类的概率(不仅是最可能的类)。
当前状态: 功能提取器已就位。它为每个文本文档输出一个特征向量,具有约30个特征,几乎全部为数字,其中几个是名义上的。 我正在尝试使用Weka训练模型,现在使用weka中包含的SMO svm,使用网格搜索进行优化。我也可以使用libSVM,但现在这并不重要。
问题:
答案 0 :(得分:1)
您可以尝试进行回归而不是分类 - 基本上您会尝试预测阅读每个文档的“理想”年龄。
这将允许你处理不同的年龄范围,虽然不完全清楚如何表示类 - 可能只是从平均值开始,所以对于8-12,正确的答案将是10等(并且玩周围有“成人”的价值。)
我的猜测是它可以导致对模型的更可靠的估计,并且结果可以很好地解释 - 例如如果你有很多8-12和12-15的例子,并且算法预测11.9,你可以说这对于8-12范围来说“几乎不可理解”。