我正在尝试将文本格式的法律案例文档分类到Civil,Land,Criminal等不同的文件夹中,我打算使用Naive Bayes作为Vectoriser从文本文档中获取向量,将其输入SVM为了使用javaml对文档进行分类,我实现了像stemming这样的预处理,我使用了http://eprints.nottingham.ac.uk/2995/1/Isa_Text.pdf中所见的朴素贝叶斯的公式来计算先验概率,可能性,证据和后验概率,我假设后验概率是矢量被送入SVM,但我不能格式化输出以输入SVM库。
我需要我能得到的所有帮助,我希望我做得对。
我还有其他法律案例作为测试集,我想将其归类为正确的类别。