Question

在这种情况下，我遇到了regexp的麻烦：我需要从这种结构中提取（并替换）所有点：

any_symbols->white_space->x.(or xx. or Xx. or xX. or xy. or yy. etc.)->white_space->any_symbol_not_upper_case_and_not_a_digit

例如

1990 x. abcd  -  extract dot

ffff xx.abcd  -  extract dot

1990 x. Abcdef    -  do not extract

abcd x. Abcd      -  do not extract

abcd x. 1990      -  do not extract

所以我构建了这样的正则表达式：

(?<=\s[XxYy]{1,2})\.(?>=\s+?[^\p{javaUpperCase}\d])

但它不匹配。那有什么不对？

由于

P.S。

之后

String skipPtrn="(?<=\\s[РрГг]{1,2})\\.(?>=\\s+?[^\\p{javaUpperCase}\\d])";
originalText=originalText.replaceAll(skipPtrn, " ");

我仍然在文中找到：

1673р。 з'явився

У1623р。 через

至1925年。（“Вiсник

等

Answer 1

尝试从前瞻组中删除>符号：(?<=\s[XxYy]{1,2})\.(?=\s+?[^\p{javaUpperCase}\d])。您可以执行(?>x)（原子组）或(?=x)（零宽度正向前瞻）但不能(?>=x)。

另请注意，您的第二个示例与您的描述不符，并且不会与上述正则表达式匹配。

Answer 2

根本不需要向前看：

$ perl -wne 's/^(\w+\s+[XxYy]{1,2})\.(\s*[^A-Z\d]+)$/$1$2/;print' <data.txt 
1990 x abcd
ffff xxabcd
1990 x. Abcdef
abcd x. Abcd
abcd x. 1990

正则表达式不匹配

2 个答案: