Python:正则表达式识别文档标题

时间:2015-10-08 18:07:04

标签: python regex

我已经将文档解析为单独的句子,但是一些解析的句子也包含文档的标题。这意味着几句话看起来像这样:

  Blah bla blah some text。 2011年2年公司名称,公司   免责声明日期2011年1月5日 Blah blah blah text继续。

现在我要删除标题(如果存在)并将字符串拆分为两个(标题前一个句子,标题后面的另一个句子。

标题中的日期不同,但总是......

  • 以页码开头,然后是'年份'和年份的数字;
  • 结束于:'日期' +(int)+(string)+(int)。

是否有正则表达式来识别此标题并将其删除?

2 个答案:

答案 0 :(得分:1)

您可以使用re.sub提供空字符串作为repl参数。

re.sub("\d+ Year \d{4}.*Date \d{1,2} (january|february) \d{4}", "", your_sentence)

请查看re.sub了解详情。

您还可以使用Pythex来测试正则表达式模式。

答案 1 :(得分:1)

尝试:

\d+\sYear\s\d{4}[\w\s,]+?Date\s\d+\s\w+\s\d{4}

DEMO

然而,取决于文本内容,可能存在也匹配的片段。所以可能需要更长的例子。