标签: python regex
我已经将文档解析为单独的句子,但是一些解析的句子也包含文档的标题。这意味着几句话看起来像这样:
Blah bla blah some text。 2011年2年公司名称,公司 免责声明日期2011年1月5日 Blah blah blah text继续。
现在我要删除标题(如果存在)并将字符串拆分为两个(标题前一个句子,标题后面的另一个句子。
标题中的日期不同,但总是......
是否有正则表达式来识别此标题并将其删除?
答案 0 :(得分:1)
您可以使用re.sub提供空字符串作为repl参数。
re.sub
repl
re.sub("\d+ Year \d{4}.*Date \d{1,2} (january|february) \d{4}", "", your_sentence)
请查看re.sub了解详情。
您还可以使用Pythex来测试正则表达式模式。
答案 1 :(得分:1)
尝试:
\d+\sYear\s\d{4}[\w\s,]+?Date\s\d+\s\w+\s\d{4}
DEMO
然而,取决于文本内容,可能存在也匹配的片段。所以可能需要更长的例子。