如何使用spaCy获取依赖树?

时间:2016-04-13 21:47:56

标签: python spacy

我一直试图找到如何使用spaCy获取依赖树,但我无法找到有关如何获取树的任何内容,只能在how to navigate the tree上找到。

8 个答案:

答案 0 :(得分:46)

如果有人想要轻松查看spacy生成的依赖关系树,一种解决方案是将其转换为nltk.tree.Tree并使用nltk.tree.Tree.pretty_print方法。这是一个例子:

import spacy
from nltk import Tree


en_nlp = spacy.load('en')

doc = en_nlp("The quick brown fox jumps over the lazy dog.")

def to_nltk_tree(node):
    if node.n_lefts + node.n_rights > 0:
        return Tree(node.orth_, [to_nltk_tree(child) for child in node.children])
    else:
        return node.orth_


[to_nltk_tree(sent.root).pretty_print() for sent in doc.sents]

输出:

                jumps                  
  ________________|____________         
 |    |     |     |    |      over     
 |    |     |     |    |       |        
 |    |     |     |    |      dog      
 |    |     |     |    |    ___|____    
The quick brown  fox   .  the      lazy

编辑:要更改令牌表示,您可以执行以下操作:

def tok_format(tok):
    return "_".join([tok.orth_, tok.tag_])


def to_nltk_tree(node):
    if node.n_lefts + node.n_rights > 0:
        return Tree(tok_format(node), [to_nltk_tree(child) for child in node.children])
    else:
        return tok_format(node)

结果是:

                         jumps_VBZ                           
   __________________________|___________________             
  |       |        |         |      |         over_IN        
  |       |        |         |      |            |            
  |       |        |         |      |          dog_NN        
  |       |        |         |      |     _______|_______     
The_DT quick_JJ brown_JJ   fox_NN  ._. the_DT         lazy_JJ

答案 1 :(得分:33)

树本身不是一个物体;你只需通过令牌之间的关系来导航它。这就是为什么文档谈论导航树,而不是“得到”它。

首先,让我们解析一些文本以获取Doc对象:

>>> import spacy
>>> nlp = spacy.load('en')
>>> doc = nlp('First, I wrote some sentences. Then spaCy parsed them. Hooray!')

docSequenceToken个对象:

>>> doc[0]
First
>>> doc[1]
,
>>> doc[2]
I
>>> doc[3]
wrote

但它没有一个根令牌。我们解析了由三个句子组成的文本,因此有三个不同的树,每个树都有自己的根。如果我们想从每个句子的根开始解析,首先将有助于将句子作为不同的对象。幸运的是,doc通过.sents属性向我们公开了这些内容:

>>> sentences = list(doc.sents)
>>> for sentence in sentences:
...     print(sentence)
... 
First, I wrote some sentences.
Then spaCy parsed them.
Hooray!

这些句子中的每一个都是Span,其.root属性指向其根令牌。通常,根令牌将是句子的主要动词(尽管对于不常见的句子结构可能不是这样,例如没有动词的句子):

>>> for sentence in sentences:
...     print(sentence.root)
... 
wrote
parsed
Hooray

找到根令牌后,我们可以通过每个令牌的.children属性向下导航树。例如,让我们在第一句中找到动词的主语和宾语。每个子令牌describes its relationship with its parent.dep_属性;例如dep_ 'nsubj'表示令牌是其父级的名义主题

>>> root_token = sentences[0].root
>>> for child in root_token.children:
...     if child.dep_ == 'nsubj':
...         subj = child
...     if child.dep_ == 'dobj':
...         obj = child
... 
>>> subj
I
>>> obj
sentences

我们也可以通过查看其中一个令牌的孩子继续走下树:

>>> list(obj.children)
[some]

因此,通过上面的属性,您可以导航整个树。如果您想将一些依赖树可视化为例句以帮助您理解结构,我建议您使用displaCy进行游戏。

答案 2 :(得分:7)

事实证明,树在文档中可用through the tokens

您是否想要找到树的根,您可以浏览文档:

def find_root(docu):
    for token in docu:
        if token.head is token:
            return token

要导航树,令牌都有API来获取through the children

答案 3 :(得分:5)

您可以使用下面的库查看依赖树,发现它非常有用!

from spacy import displacy

nlp = spacy.load('en')
doc = nlp(u'This is a sentence.')
displacy.serve(doc, style='dep')

答案 4 :(得分:5)

我不知道这是一个新的API调用还是什么,但是在Document类上有一个.print_tree()方法可以使此工作快速进行。

https://spacy.io/api/doc#print_tree

它将依赖关系树转储到JSON。它处理多个句子的词根以及所有这些内容:

    import spacy    
    nlp = spacy.load('en')
    doc1 = nlp(u'This is the way the world ends.  So you say.')  
    print(doc1.print_tree(light=True))

名称 print _tree有点用词不当,该方法本身不打印任何内容,而是返回字典列表,每个句子一个。

答案 5 :(得分:4)

我还需要在完整代码下面这样做:

import sys
def showTree(sent):
    def __showTree(token):
        sys.stdout.write("{")
        [__showTree(t) for t in token.lefts]
        sys.stdout.write("%s->%s(%s)" % (token,token.dep_,token.tag_))
        [__showTree(t) for t in token.rights]
        sys.stdout.write("}")
    return __showTree(sent.root)

如果你想要终端的间距:

def showTree(sent):
    def __showTree(token, level):
        tab = "\t" * level
        sys.stdout.write("\n%s{" % (tab))
        [__showTree(t, level+1) for t in token.lefts]
        sys.stdout.write("\n%s\t%s [%s] (%s)" % (tab,token,token.dep_,token.tag_))
        [__showTree(t, level+1) for t in token.rights]
        sys.stdout.write("\n%s}" % (tab))
    return __showTree(sent.root, 1)

答案 6 :(得分:0)

虽然 spaCy 库在过去 5 年中可能发生了一些变化,但@Mark Amery 的方法非常有效。这是我一直在做的事情,在副本的页面和页面中分解句子,以获得名义上描述的特征,以及与它们相关的 NP 或 VP。我们采取的另一种方法(可能在过去的 5 年里已经出现在 SpaCy 中)......如果你看一下反对你的未来的短语中的根 VB,并注意 dep 的类型,这个根的祖先和祖先的孩子,你基本上会找到指向主语、宾语和词根的头。您可以将它们分解为基于并格或连词等的修饰语从句,这将告诉您这些从句是对功能描述的补充还是核心。有了它,你可以重写句子,我主要是为了去除多余的东西并创建包含硬细节的片段。不知道是否对其他人有帮助,但这是我在与 SpaCy 基于张量的建模相比在纸上绘制 nsubj、dobj、conjuncts 和 pobjs 数周后遵循的策略。 IMO,值得注意的是,SpaCy 所做的标记似乎总是 100% 正确 - 每次,即使片段在写得很糟糕的可怕连续剧中相隔 20 个单词也是如此。我永远不必再猜测它的输出 - 这显然是无价的。

答案 7 :(得分:-3)

我还没有足够的解析知识。然而,我的文献研究结果导致知道spaCy有一个shift-reduce依赖解析算法。这解析了问题/句子,产生了解析树。为了形象化,您可以使用DisplaCy,CSS和Javascript的组合,与Python和Cython一起使用。 此外,您可以使用SpaCy库进行解析,并导入Natural Language Toolkit(NLTK)。希望这有帮助