如何使用正则表达式检测文本中的起始单词?

时间:2017-01-26 11:08:04

标签: regex python-3.x

我有文本文档,其中一些行以表达式开始,如1)或i)或ii)和类似的类型。我使用punkt句子标记器对文本文档进行了句子分割。但是punkt句子标记器无法将这些检测为句子边界。例如,punkt tokenizer将其检测为一句话:

  (f)关于根据“2014年公司(审计和审计)规则”第11条,审计报告中包含的其他事项,我们认为并且根据我们的最佳信息并根据解释给我们:
  i)本公司已在财务报表中披露未决诉讼对其财务状况的影响;
  I)本公司对包括衍生合约在内的长期合约并无任何重大可预见亏损;   iii)公司未向投资者教育和保护基金转移需要转移的金额。

我想在python中使用正则表达式进一步细分每个检测到的句子。那么如何在句子中检测i)或iii)?

3 个答案:

答案 0 :(得分:0)

试试这个/^[^\n]+/m。如果您的句子中没有换行符,这应该有效。

答案 1 :(得分:0)

能够找出这种替换的正则表达式。

<IfModule mod_headers.c> Header set Access-Control-Allow-Origin "*" </IfModule> 适用于此替换。

答案 2 :(得分:0)

怎么样:

(?i)\b[0-9ivxlcdm]+\)
  • (?i):不区分大小写
  • \b:字边界
  • [0-9ivxlcdm]+:一个或多个数字或罗马数字
  • \):右括号