Question

我有文本文档，其中一些行以表达式开始，如1）或i）或ii）和类似的类型。我使用punkt句子标记器对文本文档进行了句子分割。但是punkt句子标记器无法将这些检测为句子边界。例如，punkt tokenizer将其检测为一句话：

  （f）关于根据“2014年公司（审计和审计）规则”第11条，审计报告中包含的其他事项，我们认为并且根据我们的最佳信息并根据解释给我们：
  i）本公司已在财务报表中披露未决诉讼对其财务状况的影响;
  I）本公司对包括衍生合约在内的长期合约并无任何重大可预见亏损;   iii）公司未向投资者教育和保护基金转移需要转移的金额。

我想在python中使用正则表达式进一步细分每个检测到的句子。那么如何在句子中检测i）或iii）？

Answer 1

试试这个/^[^\n]+/m。如果您的句子中没有换行符，这应该有效。

Answer 2

能够找出这种替换的正则表达式。

<IfModule mod_headers.c> Header set Access-Control-Allow-Origin "*" </IfModule>适用于此替换。

Answer 3

怎么样：

(?i)\b[0-9ivxlcdm]+\)

(?i)：不区分大小写
\b：字边界
[0-9ivxlcdm]+：一个或多个数字或罗马数字
\)：右括号

如何使用正则表达式检测文本中的起始单词？

3 个答案: