应用错误收集

使用Naive Baye消除低信心的预测

时间：2014-11-12 10:13:50

标签： apache-spark bayesian apache-spark-mllib document-classification

我一直在尝试Naive Baye实施Spark的MLlib。在测试阶段，我希望以低信心预测来消除数据。

我的数据集主要包括基于表单的文档，如报表和申请表。它们包含键值对类型文本，因此我认为独立条件比自然语言更好。

关于先辈的质量，我没有做任何特别的事。我正在为每个班级训练或多或少相同数量的样本，并且由MLlib完成了繁重的工作。

鉴于这些事实，为每个类别定义置信度阈值是否有意义，我将在此基础上得到正确的结果？

由于

0 个答案:

没有答案