标签: apache-spark bayesian apache-spark-mllib document-classification
我一直在尝试Naive Baye实施Spark的MLlib。在测试阶段,我希望以低信心预测来消除数据。
我的数据集主要包括基于表单的文档,如报表和申请表。它们包含键值对类型文本,因此我认为独立条件比自然语言更好。
关于先辈的质量,我没有做任何特别的事。我正在为每个班级训练或多或少相同数量的样本,并且由MLlib完成了繁重的工作。
鉴于这些事实,为每个类别定义置信度阈值是否有意义,我将在此基础上得到正确的结果?
由于