使用$ groups定义TokenRegex规则

时间:2015-10-19 11:45:08

标签: regex stanford-nlp

我正在尝试使用TokenRegex来匹配我的数据中的模式,但是我正在使用的正则表达式中出现错误。什么是匹配$ group后跟数字的正确的正则表达式格式。例如,我的数据可能包含JIRA错误票号 JSON-123 SBP-32 等。我还想提取一些与每张票相关的关键字,例如验证失败或NullPointer异常我可以使用什么工具与TokenRegex一起提取这些关键字。我看了自助式学习但很难实现它。任何帮助将不胜感激。

    List<CoreMap> sentences = annotation.get(SentencesAnnotation.class);
    List<CoreLabel> tokens = new ArrayList<CoreLabel>();
    for (CoreMap sentence : sentences) {
        // **using TokensRegex**
        for (CoreLabel token : sentence.get(TokensAnnotation.class))
            tokens.add(token);
        String $PROJECTID = "/JSON|JPA|SBP/";
        try {
            TokenSequencePattern p1 = TokenSequencePattern
                    .compile('('+$PROJECTID+'\\-\\d+)');
            TokenSequenceMatcher matcher = p1.getMatcher(tokens);

            while (matcher.find()) {
                System.out.println(matcher);
                matcheData.append(matcher);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

0 个答案:

没有答案