我即将为我想要处理的文件中给出的模式开发一个正则表达式。
该文件包含多篇文章,这些文章都遵循类似的模式:
我尝试提出一个非贪婪的正则表达式,它准确地匹配文章的开头,正文和结尾。
对于1-4我有^n\W+Dokument.+?[\r\n][\r\n]\W+Copyright[^\n]+\n
5-6需要什么?
我是否真的需要一个dotall标志,如果我打算使用这个正则表达式建议在文件中多次匹配模式?
我整天都在这。有新鲜思想的人能否向我展示缺失的部分?
干杯, 安德鲁
答案 0 :(得分:1)
您可以使用以下内容:
- 一个包含非单词字符的可选行,后跟更多字符和新行
醇>
(\W+?(?:(?!All|Alle).)+?\n)?
- 一行包含非单词字符,后跟“All Rights Reserved”或“Alle Rechte vorbehalten”和新行
醇>
\W+(All Rights Reserved|Alle Rechte vorbehalten)\n
结合1-6:
^\W+Dokument.+?[\r\n][\r\n]\W+Copyright[^\n]+\n(\W+?(?:(?!All|Alle).)+?\n)?\W+?(?:All Rights Reserved|Alle Rechte vorbehalten)\n
请参阅DEMO