应用错误收集

法律文本的NLP？

时间：2016-05-13 00:09:33

标签： nlp stanford-nlp parsey-mcparseface syntaxnet

我有几十万份法律文件（大部分来自欧盟） - 法律，评论，法庭文件等。我试图在算法上对它们有所了解。

我已经建模了已知的关系（时间，这个 - 变化 - 等等）。但在单文档级别上，我希望我有更好的工具来快速理解。我愿意接受各种想法，但这是一个更具体的问题：

例如：是否有NLP方法来确定文档的相关/有争议部分而不是样板文件？最近泄露的TTIP论文是数千页的数据表，但在那里的某个句子可能会破坏一个行业。

我过去常常使用google的新版Parsey McParface以及其他NLP解决方案，但虽然它们的效果非常好，但我不确定它们在隔离意义方面有多好。

3 个答案:

答案 0 :(得分：5)

为了理解文档，您需要执行某种语义分析。你有两个主要的可能性：

使用框架语义： http://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签（SRL）： http://cogcomp.org/page/demo_view/srl

一旦您能够从文档中提取信息，您就可以应用一些后处理来确定哪些信息是相关的。找到相关的信息与任务相关，我认为您无法找到提取“相关”信息的通用工具。

答案 1 :(得分：2)

我看到你有一个有趣的用例。你还提到了语料库的存在（这是一个非常好的加分）。让我联想一下我从研究论文中提取症结的草图。

为了理解文档，您需要触发器来告诉（或训练）计算机查找这些＆＃34;触发器＆＃34;。您可以使用监督学习算法来解决这个问题，该算法可以在最基本的级别上简单地实现文本分类问题。但这需要先前的工作，领域专家的帮助最初是为了辨别＆＃34;触发器＆＃34;从文本数据。有提取句子要点的工具 - 例如，在句子中取名词短语，根据共同出现分配权重并将它们表示为向量。这是您的训练数据。这可以是将NLP纳入您的域名的一个非常好的开始。

答案 2 :(得分：0)

不要使用触发器。你需要的是词义消歧和领域适应。你想理解文档中的内容，即理解语义来弄清楚其含义。您可以在skos或json-ld格式中构建术语的法律本体，在知识图中将其表示为本体，并将其与依赖解析（如tensorflow / parseymcparseface）一起使用。或者，您可以使用基于kappa的体系结构流式传输文档 - 类似于使用CoreNLP / Tensorflow / UIMA添加中间NLP层的kafka-flink-elasticsearch，使用redis缓存flink和elasticsearch之间的索引设置以加快进程。要了解相关性，您可以在搜索中应用特定案例。此外，应用情绪分析来计算意图和真实性。您的用例是信息提取，摘要和语义Web /链接数据之一。由于欧盟拥有不同的法律体系，您需要首先概括真正的法律文件，然后将其缩小到与主题或地区相关的特定法律概念。您还可以使用LDA或Word2Vec / Sense2Vec中的主题建模技术。此外，Lemon还可以帮助将词汇转换为语义和语义，即词汇，即NLP->本体 - >本体 - > NLP。实质上，将聚类提供给命名实体识别的分类。您还可以使用聚类来帮助您构建本体，或使用余弦相似性查看文档或文档集中的单词向量。但是，为了做到这一切，最好能够直观地显示文档的稀疏性。像常识推理+深度学习这样的东西也可以帮助你。