我有文本文档,其中一些行以表达式开始,如1)或i)或ii)和类似的类型。我使用punkt句子标记器对文本文档进行了句子分割。但是punkt句子标记器无法将这些检测为句子边界。例如,punkt tokenizer将其检测为一句话:
(f)关于根据“2014年公司(审计和审计)规则”第11条,审计报告中包含的其他事项,我们认为并且根据我们的最佳信息并根据解释给我们:
i)本公司已在财务报表中披露未决诉讼对其财务状况的影响;
I)本公司对包括衍生合约在内的长期合约并无任何重大可预见亏损; iii)公司未向投资者教育和保护基金转移需要转移的金额。
我想在python中使用正则表达式进一步细分每个检测到的句子。那么如何在句子中检测i)或iii)?
答案 0 :(得分:0)
试试这个/^[^\n]+/m
。如果您的句子中没有换行符,这应该有效。
答案 1 :(得分:0)
能够找出这种替换的正则表达式。
<IfModule mod_headers.c>
Header set Access-Control-Allow-Origin "*"
</IfModule>
适用于此替换。
答案 2 :(得分:0)
怎么样:
(?i)\b[0-9ivxlcdm]+\)
(?i)
:不区分大小写\b
:字边界[0-9ivxlcdm]+
:一个或多个数字或罗马数字\)
:右括号