Question

我即将为我想要处理的文件中给出的模式开发一个正则表达式。

该文件包含多篇文章，这些文章都遵循类似的模式：

我尝试提出一个非贪婪的正则表达式，它准确地匹配文章的开头，正文和结尾。

对于1-4我有^n\W+Dokument.+?[\r\n][\r\n]\W+Copyright[^\n]+\n

5-6需要什么？

我是否真的需要一个dotall标志，如果我打算使用这个正则表达式建议在文件中多次匹配模式？

我整天都在这。有新鲜思想的人能否向我展示缺失的部分？

干杯，安德鲁

Answer 1

您可以使用以下内容：

一个包含非单词字符的可选行，后跟更多字符和新行

(\W+?(?:(?!All|Alle).)+?\n)?

一行包含非单词字符，后跟“All Rights Reserved”或“Alle Rechte vorbehalten”和新行

\W+(All Rights Reserved|Alle Rechte vorbehalten)\n

结合1-6：

^\W+Dokument.+?[\r\n][\r\n]\W+Copyright[^\n]+\n(\W+?(?:(?!All|Alle).)+?\n)?\W+?(?:All Rights Reserved|Alle Rechte vorbehalten)\n

请参阅DEMO