Question

我已经将文档解析为单独的句子，但是一些解析的句子也包含文档的标题。这意味着几句话看起来像这样：

Blah bla blah some text。 2011年2年公司名称，公司免责声明日期2011年1月5日 Blah blah blah text继续。

现在我要删除标题（如果存在）并将字符串拆分为两个（标题前一个句子，标题后面的另一个句子。

标题中的日期不同，但总是......

是否有正则表达式来识别此标题并将其删除？

Answer 1

您可以使用re.sub提供空字符串作为repl参数。

re.sub("\d+ Year \d{4}.*Date \d{1,2} (january|february) \d{4}", "", your_sentence)

请查看re.sub了解详情。

您还可以使用Pythex来测试正则表达式模式。

Answer 2

尝试：

\d+\sYear\s\d{4}[\w\s,]+?Date\s\d+\s\w+\s\d{4}

然而，取决于文本内容，可能存在也匹配的片段。所以可能需要更长的例子。