我有几十万份法律文件(大部分来自欧盟) - 法律,评论,法庭文件等。我试图在算法上对它们有所了解。
我已经建模了已知的关系(时间,这个 - 变化 - 等等)。但在单文档级别上,我希望我有更好的工具来快速理解。我愿意接受各种想法,但这是一个更具体的问题:
例如:是否有NLP方法来确定文档的相关/有争议部分而不是样板文件?最近泄露的TTIP论文是数千页的数据表,但在那里的某个句子可能会破坏一个行业。
我过去常常使用google的新版Parsey McParface
以及其他NLP解决方案,但虽然它们的效果非常好,但我不确定它们在隔离意义方面有多好。
答案 0 :(得分:5)
为了理解文档,您需要执行某种语义分析。你有两个主要的可能性:
使用框架语义: http://www.cs.cmu.edu/~ark/SEMAFOR/
使用语义角色标签(SRL): http://cogcomp.org/page/demo_view/srl
一旦您能够从文档中提取信息,您就可以应用一些后处理来确定哪些信息是相关的。找到相关的信息与任务相关,我认为您无法找到提取“相关”信息的通用工具。
答案 1 :(得分:2)
我看到你有一个有趣的用例。你还提到了语料库的存在(这是一个非常好的加分)。让我联想一下我从研究论文中提取症结的草图。
为了理解文档,您需要触发器来告诉(或训练)计算机查找这些"触发器"。您可以使用监督学习算法来解决这个问题,该算法可以在最基本的级别上简单地实现文本分类问题。但这需要先前的工作,领域专家的帮助最初是为了辨别"触发器"从文本数据。有提取句子要点的工具 - 例如,在句子中取名词短语,根据共同出现分配权重并将它们表示为向量。这是您的训练数据。 这可以是将NLP纳入您的域名的一个非常好的开始。
答案 2 :(得分:0)
不要使用触发器。你需要的是词义消歧和领域适应。你想理解文档中的内容,即理解语义来弄清楚其含义。您可以在skos或json-ld格式中构建术语的法律本体,在知识图中将其表示为本体,并将其与依赖解析(如tensorflow / parseymcparseface)一起使用。或者,您可以使用基于kappa的体系结构流式传输文档 - 类似于使用CoreNLP / Tensorflow / UIMA添加中间NLP层的kafka-flink-elasticsearch,使用redis缓存flink和elasticsearch之间的索引设置以加快进程。要了解相关性,您可以在搜索中应用特定案例。此外,应用情绪分析来计算意图和真实性。您的用例是信息提取,摘要和语义Web /链接数据之一。由于欧盟拥有不同的法律体系,您需要首先概括真正的法律文件,然后将其缩小到与主题或地区相关的特定法律概念。您还可以使用LDA或Word2Vec / Sense2Vec中的主题建模技术。此外,Lemon还可以帮助将词汇转换为语义和语义,即词汇,即NLP->本体 - >本体 - > NLP。实质上,将聚类提供给命名实体识别的分类。您还可以使用聚类来帮助您构建本体,或使用余弦相似性查看文档或文档集中的单词向量。但是,为了做到这一切,最好能够直观地显示文档的稀疏性。像常识推理+深度学习这样的东西也可以帮助你。