应用错误收集

我担心我对分类器背后的理论的理解不深，所以如果我的问题看起来很天真，请原谅我。

目标： 给定一个任意文本，根据年龄范围对其进行分类，这取决于其可读性。所以我的课程将是年龄范围，如（简化）：5-6,6-8,8-10,10-14,14-16，成人。理想情况下，每个文本文档应该获得每个类的概率（不仅是最可能的类）。

当前状态： 功能提取器已就位。它为每个文本文档输出一个特征向量，具有约30个特征，几乎全部为数字，其中几个是名义上的。我正在尝试使用Weka训练模型，现在使用weka中包含的SMO svm，使用网格搜索进行优化。我也可以使用libSVM，但现在这并不重要。

问题：

您是否会为此任务使用不同的分类器，尤其是具有每类概率的所需输出？
训练数据不会分成如此漂亮的不相交范围。这些范围可能重叠。一些文本（手动）分类为10-12范围，其他一些来自不同来源，分类为11-13或8-13等。您将如何处理此问题？修改过滤/培训？不修改它们，但以不同的方式解释结果？