我有很多文档需要将文本拆分成块,文档中包含大写单词需要分成几部分的文本
LORUM ipsum dolor sit amet, consectetur adipiscing elit, SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?
会变成
LORUM ipsum dolor sit amet, consectetur adipiscing elit,
SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium,
TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem.
UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?
我已经尝试搜索返回大写字词的\b[A-Z](.*?)+\b
,并且我已经尝试了\b[A-Z](.*?)+\b(.*?)\b[A-Z](.*?)+\b
,它接近了几个文档,但在其他文档上失败了,包括Lorem Ipsum例。
答案 0 :(得分:2)
这里的匹配方法包括匹配连续空格分隔的ALLCAPS单词,然后匹配任何未启动2个大写字母序列的char:
\b[A-Z]+(?:\s+[A-Z]+)*(?:(?![A-Z]{2}).)*
请参阅regex demo
如果ALLCAPS单词必须至少包含2个字母,请使用限制量词而不是+
:
\b[A-Z]{2,}(?:\s+[A-Z]{2,})*(?:(?![A-Z]{2}).)*
^^^ ^^^^
模式详情:
\b
- 领先的单词边界[A-Z]+
- 一个或多个大写ASCII字母(?:\s+[A-Z]+)*
- 零个或多个序列:
\s+
- 1+空格[A-Z]+
- 1+大写ASCII字母(?:(?![A-Z]{2}).)*
- 一个驯化的贪婪令牌,匹配任何未启动2个大写ASCII字母序列的字符。答案 1 :(得分:1)
preg_split()
将成为其中的一部分:
$result = preg_split('/([A-Z][A-Z ]+)/',
$string,
null,
PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);
[A-Z][A-Z ]+
()
PREG_SPLIT_DELIM_CAPTURE
然后,除非有人在preg_split()
中有更好的方法:
$result = array_map(function($v) {
return implode(' ', $v);
},
array_chunk($result, 2));
然后,如果你想要它回到带换行符的字符串:
$result = implode("\n", $result);
答案 2 :(得分:0)
此正则表达式应该有效:[A-Z]\w+
它会选择大写\w+
的所有单词[A-Z]
答案 3 :(得分:0)
尝试搜索此正则表达式:(\s)(([A-Z]+\s\b)+)
并替换为:\n\2
或此:\n\n\2
,其中包含两行。