如何用java获取句子的逻辑部分?

时间:2010-04-23 15:09:12

标签: java artificial-intelligence nlp linguistics

假设有一句话:

On March 1, he was born.

将其更改为

He was born on March 1.

不会破坏句子的意义,它仍然有效。以任何其他方式改组单词会对无效句子产生怪异。所以基本上,我说的是句子的一部分,它使信息更具体,但删除它们并不会破坏整个句子。是否有任何NLP库可以识别这些部件?

2 个答案:

答案 0 :(得分:26)

<强>成分

听起来你想要识别句子的constituents,它们是根据语言的语法作为单个单元运作的单词组。

事实上,当语言学试图发现语言的语法时,他们通过查看movement来部分地去做。在您的示例中,这是一组单词可以移动到句子中的不同位置,同时仍然保留句子的含义。

成分可以是单个单词,短语,甚至更大的组,如整个条款。在一个句子中,它们具有嵌套的层次结构。例如,您提供的第一个例句可以分析为:

(S  (PP (IN On) (NP (NNP March) (CD 1)))
    (NP (PRP he))
    (VP (VBD was) (VP (VBN born))))

整个句子由prepositional phrase组成,后跟noun phrase,然后是verb phrase。介词短语可以进一步分解为由单个单词“On”后跟名词短语组成的单元。

短语结构解析器

要自动查找成分,您可能需要使用短语结构解析器。有很多这样的解析可供选择,可以作为开源提供,包括:

斯坦福和伯克利解析器可能是最容易安装和使用的解析器。如Cer et al. 2010所示,最准确的解析器是Berkeley和Charniak。 Bikel解析器比其他解析器更慢且更不准确。

在线演示

有一个斯坦福解析器here的在线演示。我使用该演示来生成上面给出的例句的解析。

关于删除的说明

在每个成分中,将有一个head word。例如,取名词短语:

(NP (DT The) (JJ big) (JJ blue) (NN ball))

这里的首字是名词ball,它由形容词bigblue修改。如果这个名词短语嵌入在一个句子中,你可以删除那些修饰语,但仍然有一些与原句的含义一致但不太具体的东西。

在名词短语中,您通常可以删除形容词,非头部的名词和嵌套的介词短语。

在动词短语和完整条款中,事情变得更加棘手,因为删除作为动词参数的服务器可以完全改变句子的解释。例如,从the book删除He sold Jim the book会导致 He sold Jim

答案 1 :(得分:1)

OpenNLP可能会为您做一些事情。 Phrase chunking解析应该可以帮助你解决这个问题。然而,这不是一个特别简单的问题,并且随着句子结构变得更加复杂和模糊,算法会变得混乱。你有时应该能够重新排序句子中的短语并保持意义。