NLP:解决块

时间:2018-05-30 02:18:19

标签: nlp nltk stanford-nlp

我计划在书籍上执行我的NLP管道。由于解析共同参与是一个密集的过程,我无法一次处理整本书甚至整个章节。我打算将文本拆分成相当大的夹头以解决共指问题。

我需要帮助的问题是,当它所引用的名词位于Group1中时,我将如何解决Group2中的代词。有没有办法将Group1中的依赖项播种到以下组?如果没有,这通常如何处理?

对于我使用CoreNLP的价值,我可以向其他人开放。

  

"第1组":乔治出生在纽约。 Geroge是10岁。

     

"第2组":他喜欢纽约市。

由于

1 个答案:

答案 0 :(得分:0)

这可能很有趣:https://stanfordnlp.github.io/CoreNLP/memory-time.html 在这里https://stanfordnlp.github.io/CoreNLP/coref.html他们提到了maxMentionDistance设置。我记得在使用coreNLP进行coref解析的某些时候修改它。 (但是直接在Java中;因为你用NLTK标记了你的问题;不确定在NLTK实现中是否也可以设置这个问题)

我在这里使用常识并试图尽可能地坚持概念块,即如果章节太大,请尝试(几个)段落。也许你可以在后期处理中“粘合”提到的链条,但我想这不会立即直截了当。