我在这里有一个正则表达式: https://regex101.com/r/uiY6iE/7
(?i:Stellenreferenz|Referenznummer|Stellenausschreibung Nr\.|kennziffer):?\s*([A-Z]*\s*.*?\s*[A-Z]*)(?=\s+)\b(?!(?:straße|email|adresse|postalisch))
和一个测试字符串,我想忽略最后一组部分中的信号停用词之后的所有内容(电子邮件...等) 直到另一个信号开始词出现(第一组:referenznummer等)
但是我也想排除最后一个组作为匹配组。
这是我的测试字符串:
Referenznummer: postalisch W LD-1502_aföv., W Teststrasse 349020 Kennziffer 39-W-3249 Email 30230
Kennziffer: postalisch an 3939 referenznummer: email: 393942
在正则表达式中,postalisch
一词被识别为与第1组匹配的词...但我想忽略它。
编辑:此外,如果其ALLCAPS后面/之前是混合字符串和空格,如ST 302AT_39 WW
,则它们都应该匹配。但是,如果后缀/前缀字符之一不是全大写,则不应将它们考虑在内,例如:ST AT39-WM Ag
仅应与ST AT39-WM
匹配。