使用正则表达式

时间:2019-06-01 14:31:15

标签: java regex string-matching regex-negation regex-group

我正在尝试在字符串中搜索ArrayList(terms_1pers)中包含的一组单词,并且由于前提是在搜索单词之前和之后都不应有字母,因此我想到了使用表达规则。

我只是不知道我使用Matchs运算符在做什么错。在报告的代码中,如果未验证匹配项,则会将其写入外部文件。

String url = csvRecord.get("url");
String text = csvRecord.get("review");
String var = null;
for(String term : terms_1pers)
{
   if(!text.matches("[^a-z]"+term+"[^a-z]"))
   {
      var="true";
   }
}
if(!var.equals("true"))
{
    bw.write(url+";"+text+"\n");
}

3 个答案:

答案 0 :(得分:2)

为了找到正则表达式匹配项,您应该使用正则表达式类。模式和匹配器。

String term = "term";
ArrayList<String> a  = new ArrayList<String>();
a.add("123term456"); //true
a.add("A123Term5"); //false
a.add("term456"); //true
a.add("123term"); //true
Pattern p = Pattern.compile("^[^A-Za-z]*(" + term + ")[^A-Za-z]*$");
for(String text : a) {
    Matcher m = p.matcher(text);
    if (m.find()) {
         System.out.println("Found: " + m.group(1) );
         //since the term you are adding is the second matchable portion, you're looking for group(1)
    }
    else System.out.println("No match for: " + term);
}

}

在该示例中,我们创建了一个https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html的实例,以在与之匹配的文本中查找匹配项。

请注意,我对正则表达式做了一些调整。此代码中的选择从初始匹配部分中排除所有字母A-Z和小写版本。它还将允许在匹配项之前或之后根本没有字符的情况。如果需要在此处放置某些东西,请使用+而不是*。我还限制了正则表达式,以通过使用^$来验证匹配文本的结尾来强制匹配只包含这三个组的匹配。如果这不适合您的用例,则可能需要进行调整。

以各种不同的术语来演示使用此方法:

ArrayList<String> terms = new ArrayList<String>();
terms.add("term");
terms.add("the book is on the table");
terms.add("1981 was the best year ever!");
ArrayList<String> a  = new ArrayList<String>();
a.add("123term456");
a.add("A123Term5");
a.add("the book is on the table456");
a.add("1@#!231981 was the best year ever!9#");
for (String term: terms) {

    Pattern p = Pattern.compile("^[^A-Za-z]*(" + term + ")[^A-Za-z]*$");

    for(String text : a) {

        Matcher m = p.matcher(text);
        if (m.find()) {
             System.out.println("Found: " + m.group(1)  + " in " + text);
             //since the term you are adding is the second matchable portion, you're looking for group(1)
        }
        else System.out.println("No match for: " + term + " in " + text);
    }
}

此输出为: 找到:术语在123term456 不符合以下条件:A123Term5中的字词 没有匹配项:这本书中的字词在表格456上。...

针对有关使String术语不区分大小写的问题,我们可以通过一种java.lang.Character利用大写和小写字母的选项来构建字符串的方法。

String term = "This iS the teRm.";
String matchText = "123This is the term.";
StringBuilder str = new StringBuilder();
str.append("^[^A-Za-z]*(");
for (int i = 0; i < term.length(); i++) {
  char c = term.charAt(i);
  if (Character.isLetter(c))
    str.append("(" + Character.toLowerCase(c) + "|" + Character.toUpperCase(c) + ")");
  else str.append(c);
}
str.append(")[^A-Za-z]*$");

System.out.println(str.toString());


Pattern p = Pattern.compile(str.toString());
Matcher m = p.matcher(matchText);
if (m.find()) System.out.println("Found!");
else System.out.println("Not Found!");

此代码输出两行,第一行是正在Pattern中编译的正则表达式字符串。 "^[^A-Za-z]*((t|T)(h|H)(i|I)(s|S) (i|I)(s|S) (t|T)(h|H)(e|E) (t|T)(e|E)(r|R)(m|M).)[^A-Za-z]*$"经过调整的正则表达式允许无论大小写均匹配术语中的字母。第二个输出行是“找到!”因为在matchText中可以找到大小写混合的词。

答案 1 :(得分:1)

您没有考虑开头和结尾可能包含字母的情况 因此,在前端和后端添加。*应该可以解决您的问题。

for(String term : terms_1pers)
{
   if( text.matches(".*[^a-zA-Z]+" + term + "[^a-zA-Z]+.*)" )  
   {
      var="true";
      break; //exit the loop
   }
}
if(!var.equals("true"))
{
    bw.write(url+";"+text+"\n");
}

答案 2 :(得分:0)

有几件事要注意:

  • matches需要完整的字符串匹配,因此[^a-z]term[^a-z]仅匹配:term.之类的字符串。您需要使用.find()来找到部分匹配项
  • 如果将文字字符串传递给正则表达式,则需要Pattern.quote,或者如果它包含特殊字符,则不会匹配
  • 要检查单词在开始/结束时在之前或之后是否有某种模式,您应该使用带锚点的交替(例如(?:^|[^a-z])(?:$|[^a-z]))或环顾(?<![a-z])(?![a-z])
  • 要匹配任何字母,只需使用\p{Alpha},或者-如果您打算匹配任何Unicode字母,请使用\p{L}
  • var变量设置为布尔类型更具逻辑性。

固定代码:

String url = csvRecord.get("url");
String text = csvRecord.get("review");
Boolean var = false;
for(String term : terms_1pers)
{
   Matcher m = Pattern.compile("(?<!\\p{L})" + Pattern.quote(term) + "(?!\\p{L})").matcher(text);
   // If the search must be case insensitive use
   // Matcher m = Pattern.compile("(?i)(?<!\\p{L})" + Pattern.quote(term) + "(?!\\p{L})").matcher(text); 
   if(!m.find())
   {
       var = true;
   }
}
if (!var) {
   bw.write(url+";"+text+"\n");
}