斯坦福大学返回所有匹配的表达式

时间:2018-09-21 18:55:35

标签: stanford-nlp

有没有办法返回所有匹配的表达式?

考虑以下句子

John Snow killed Ramsay Bolton

其中 John-NNPSnow-NNPkilled- VBDRamsay-NNPBolton-NNP

我将以下标记组合用作规则

NNP-NNP
NNP-VBD
VBD-NNP

以及上述规则中预期的匹配词是:

John Snow, Snow killed, killed Ramsay, Ramsay Bolton

但是使用下面的代码,我只能将其作为匹配的表达式:

[John Snow, killed Ramsay]

stanford中是否有一种方法可以从句子中获取所有期望的匹配词?这是我现在正在使用的代码和规则文件:

import com.factweavers.multiterm.SetNLPAnnotators;
    import edu.stanford.nlp.ling.CoreAnnotations;
    import edu.stanford.nlp.ling.tokensregex.CoreMapExpressionExtractor;
    import edu.stanford.nlp.ling.tokensregex.Env;
    import edu.stanford.nlp.ling.tokensregex.NodePattern;
    import edu.stanford.nlp.ling.tokensregex.TokenSequencePattern;
    import edu.stanford.nlp.pipeline.Annotation;
    import edu.stanford.nlp.pipeline.StanfordCoreNLP;
    import edu.stanford.nlp.util.CoreMap;
    import java.util.List;
    import java.util.regex.Pattern;

    public class StanfordTest {
        public static void main(String[] args) {
            String rulesFile="en.rules";
            Env env = TokenSequencePattern.getNewEnv();
            env.setDefaultStringMatchFlags(NodePattern.NORMALIZE);
            env.setDefaultStringPatternFlags(Pattern.CASE_INSENSITIVE);
            env.bind("collapseExtractionRules", false);

            CoreMapExpressionExtractor extractor= CoreMapExpressionExtractor.createExtractorFromFiles(env, rulesFile);


            String content="John Snow killed Ramsay Bolton";
            Annotation document = new Annotation(content);
            SetNLPAnnotators snlpa = new SetNLPAnnotators();
            StanfordCoreNLP pipeline = snlpa.setAnnotators("tokenize, ssplit, pos, lemma, ner");
            pipeline.annotate(document);
            List<CoreMap> sentences = document.get(CoreAnnotations.SentencesAnnotation.class);

            sentences.parallelStream().forEach(sentence -> {
                System.out.println(extractor.extractExpressions(sentence));
            });
        }
    }

en.rules

{
   ruleType:"tokens",
   pattern:([{tag:/VBD/}][ {tag:/NNP/}]),
   result:"result1"
}

{
   ruleType:"tokens",
   pattern:([{tag:/NNP/}][ {tag:/VBD/}]),
   result:"result2"
}

{
   ruleType:"tokens",
   pattern:([{tag:/NNP/}][ {tag:/NNP/}]),
   result:"result3"
}

1 个答案:

答案 0 :(得分:1)

我认为您需要为所需的不同对象创建不同的提取器。

这里的问题是,当您有两个这样的词性标记规则序列重叠时,第一个匹配的规则将吸收令牌,从而阻止第二个模式匹配。

因此,如果(NNP,NNP)是第一个规则,则“约翰·斯诺”会匹配。但是随后Snow无法与“ Snow Killed”相匹配。

如果您有一组这样重叠的图案,则应将它们解开并放在单独的提取器中。

例如,您可以有一个(名词,动词)提取器和一个单独的(名词,名词)提取器。