如何在法律领域对文本文档进行分类

时间:2018-10-01 12:49:39

标签: python svm text-classification word-embedding doc2vec

我一直在从事一个项目,该项目涉及在法律领域对文本文档进行分类 (问题的法律判断预测类)
给定的数据集包含700个法律文件(分为两类,两者非常平衡)。在进行预处理(包括应用所有最佳实践(例如删除停用词等))之后,每个文档有3个段落,我可以将它们一起考虑或单独考虑。文本文档的平均大小为2285个字。

我的目标是使用不同于经典n-grams模型的模型(该模型不考虑任何单词顺序或语义):

  • 使用神经网络(Doc2Vec)在连续域中将每个文档的文本转换为矢量;为了创建一个具有矢量的数据集(代表文档)和相应的标签(我说过有2种可能的标签:0或1);
  • 训练SVM对样本进行分类,我一直在使用10倍交叉验证。

我想知道是否有人在这个特定领域有经验,可以建议我其他方法或如何改进模型,因为我没有得到特别好的结果:74%的准确性。

使用Doc2Vec将文本转换为向量并将其用于分类器是否正确?

我的模型代表:

enter image description here

1 个答案:

答案 0 :(得分:1)

Doc2Vec是将可变长度文本转换为摘要向量的一种合理方法,这些向量通常可用于分类-尤其是主题分类或情感分类(原始的“段落向量”论文中突出了两个应用)。

但是,作为培训集,只有700个文档非常小。出版的作品倾向于使用数以万计的语料库处理数百万个文档。

此外,您的特定分类目标(预测法律判决)对我的打击要比主题或情感分类困难得多。知道如何裁决案件取决于大量的外部法律/先例(不在培训范围内)以及逻辑推论,有时还取决于情况的个别要点。这些是单个文本向量的模糊摘要不太可能捕获的东西。

相反,您报告的74%的准确度听起来真是令人印象深刻。 (仅凭这些摘要,外行人也会这样做吗?)我想知道摘要中是否有某些“算术”,即摘要者的单词选择强烈暗示或彻头彻尾地揭示了实际判断。如果这是文本中最强的信号(除非具有实际领域知识和逻辑推理),则您可能会通过更简单的n-grams / word-of-words表示法和分类器获得同样好的结果。

对训练参数进行元优化可能会逐步改善结果,但是我认为您需要更多的数据,也许还需要更先进的学习技术,才能真正估计出您在法律上可以胜任的人工水平预测可能是针对的。