具有spacy

时间:2017-04-13 16:36:15

标签: python information-extraction spacy

我想使用python库spacy来匹配文本中的标记(添加标签作为语义参考)。然后,我想使用匹配来提取令牌之间的关系。我的第一个是利用spacy的matcher.addmatcher.add_patternmatcher.add工作正常,我可以找到令牌,我的代码到现在为止:

import spacy


nlp = spacy.load('en')

def merge_phrases(matcher, doc, i, matches):
    if i != len(matches)-1:
        return None
    spans = [(ent_id, label, doc[start : end]) for ent_id, label, start, end in matches]
    for ent_id, label, span in spans:
        span.merge('NNP' if label else span.root.tag_, span.text, nlp.vocab.strings[label])



matcher = spacy.matcher.Matcher(nlp.vocab)



matcher.add(entity_key='1', label='FINANCE', attrs={}, specs=[[{spacy.attrs.ORTH: 'financial'}, {spacy.attrs.ORTH: 'instrument'}]], on_match=merge_phrases)
matcher.add(entity_key='2', label='BUYER', attrs={}, specs=[[{spacy.attrs.ORTH: 'acquirer'}]], on_match=merge_phrases)
matcher.add(entity_key='3', label='CODE', attrs={}, specs=[[{spacy.attrs.ORTH: 'Code'}]], on_match=merge_phrases)

这很好用,它会输出相当不错的结果:

doc = nlp(u'Code used to identify the acquirer of the financial instrument.')

# Output
['Code|CODE', 'used|', 'to|', 'identify|', 'the|', 'acquirer|BUYER', 'of|', 'the|', 'financial instrument|FINANCE', '.|']

我的问题是,如何使用matcher.add_patern来匹配令牌之间的关系,例如

matcher.add_pattern("IS_OF", [{BUYER}, {'of'}, {FINANCE}])

输出:

doc = nlp(u'Code used to identify the acquirer of the financial instrument.')

# Output
[acquirer of financial instrument]

我尝试过不同的方法来完成这项工作,但显然不是,我想我对matcher.add_pattern的理解有问题。

  1. 有些人可以帮我说明如何做到这一点 spacy?
  2. 可以在这里添加正则表达式来查找模式吗?
  3. 如何添加多个具有相同标签的令牌,或以某种方式创建 同一标签的令牌列表,例如。 "作者"
  4. 我将不胜感激。

1 个答案:

答案 0 :(得分:4)

您的匹配器会识别令牌,但要找到它们之间的关系,您将不得不进行依赖解析。 这是visual example from spacy

enter image description here

然后,您可以遍历树以查找令牌之间的关系。 https://spacy.io/docs/usage/dependency-parse#navigating

每个令牌的dep(enum)和dep_(详细名称)属性将为您提供与其子项的关系