搜索一个长度的单词边界并将其替换为“|”

时间:2015-09-16 06:51:32

标签: regex sas

我有一个超过600个字符的长字符串。我想用“|”替换长度小于200的字边界。

我使用以下代码来执行此操作。但我没有运气。

data test;
   length str1 $200;
   str1 = "N=dddddd dddddd dddddd dddddddddd ddd ddddd dddddddd dd d ,n=,|t:14.2.2-1";
run;

data test1;
   set test;
   str01 = prxchange('s/\b/|/', -1, str1);
   str02 = prxchange('s/(.{20,}?\b).*/|/', -1, str1);
run;

我知道第一个将搜索所有单词边界并用'|'替换它们,但我认为第二个可行。但后来只给了我'|'作为输出。

我正在寻找的是打破一个长脚注(超过600个字符)在4行语句中分解,因为行不能超过200个字符。所以我将用'|'替换长度不超过200的空间并使用'|'

打破字符串

提前致谢!

在实时情景中,我有以下情况。

data test;
   length str1 $200;
   str
run;

根据建议,我使用过:

data test1;
   set test;
   str01 = prxchange('s/(.{200,}?)\b\s*/\1|/', -1, compbl(str1));
run;

但是,它并没有将管道放置在长度小于或等于200个字符的单词边界上。它正在将管道放置在200以上。即表达式是forword(200以上)而非后退(在200之前或之后)以放置管道。

请告诉我正则表达式中缺少的内容。

非常感谢!

1 个答案:

答案 0 :(得分:2)

's/(.{20,}?\b).*/|/'替换整个字符串,没有换行符(因为它有可选的.{20,}?.*)和1个带有替换字符串的字边界(\b)。此外,您使用(...)捕获文本,但您没有使用它。您可以使用反向引用来“恢复”替换结果中捕获的文本。

您至少需要删除.*并在替换字符串中使用反向引用:

str02 = prxchange('s/(.{20,}?\b)/$1|/', -1, str1);
                               ^ ^^

根据需要调整限制量词({20,})中的数字。

您还可以摆脱捕获组并使用\0作为对整个匹配文本的反向引用:

str02 = prxchange('s/.{20,}?\b/\0|/', -1, str1);

<强>更新

  

除了|之外,还有一种方法可以没有空格吗?此外,它不应该在已经有|的地方提供|

只需使用负面观察(见demo):

.{20,}?\b(?![\w|])
  

我们是否可以进行条件搜索和替换,即仅在长度超过200时才进行搜索和替换?

我们可以,但看起来很难看。我建议先检查字符串长度,如果满足条件,则继续替换:

if length(str1) > 200 then 
    str02 = prxchange('s/.{200,}?\b(?![\w|])/\0|/', -1, str1);
  

返回引用

您可以阅读有关regex back-references at regular-expressions.info的更多信息。这是一段摘录:

  

如果正则表达式具有命名或编号的捕获组,则可以在替换文本中重新插入由任何捕获组匹配的文本。您的替换文本可以根据需要引用任意数量的组,甚至可以多次引用同一组。这使得可以以多种不同的方式重新排列由正则表达式匹配的文本。

<强> UPDATE2

现在,您似乎还需要在|的两边“合并”单词(删除空格)。然后,只需使用以下正则表达式:

(.{20,}?)\b\s*

并替换为\1|