如何在Perl中使用正则表达式拆分字符串?

时间:2016-10-19 10:05:09

标签: regex string perl

我在Perl中有一个字符串:'CCCCCCCC^hC^iC^*C^"C^8A'

我想使用正则表达式分割此字符串:"^[any_character]C"。换句话说,我希望按实际字符^拆分,后跟任意字符,后跟特定字母(在本例中为C),但可以是A,或者任何其他角色)。

我已经尝试过查看其他问题/帖子,最后想出了我的@split_str = split(/\^(\.)C/, $letters),但这似乎没有用。

我确定我做错了什么,但我不知道是什么。

4 个答案:

答案 0 :(得分:6)

你非常接近。您的代码中只有几个错误。在我解释之前,这是我用来测试解决方案的代码。

#!/usr/bin/perl

use strict;
use warnings;
use 5.010;

use Data::Dumper;

$_ = 'CCCCCCCC^hC^iC^*C^"C^8A';

my @data = split /\^(\.)C/;

say Dumper @data;

使用原始正则表达式运行此命令,我们得到此输出:

$VAR1 = 'CCCCCCCC^hC^iC^*C^"C^8A';

根本没有发生分裂。那是因为你的正则表达式包括\.。该点匹配字符串中的任何字符,但通过使用反斜杠转义它,您告诉Perl将其视为普通点。你的字符串中没有点,因此正则表达式不匹配,字符串不会被拆分。

如果我们删除反斜杠,我们得到这个输出:

$VAR1 = 'CCCCCCCC';
$VAR2 = 'h';
$VAR3 = '';
$VAR4 = 'i';
$VAR5 = '';
$VAR6 = '*';
$VAR7 = '';
$VAR8 = '"';
$VAR9 = '^8A';

这样更好。发生了一些分裂。但是因为我们在点((.))周围有括号,所以Perl“捕获”了点匹配的字符,并将它们添加到split()返回的值列表中。

如果我们删除这些括号,我们只得到分割标记之间的值。

$VAR1 = 'CCCCCCCC';
$VAR2 = '';
$VAR3 = '';
$VAR4 = '';
$VAR5 = '^8A';

请注意,我们会得到一些空元素。那是因为在字符串中的“^ hC ^ iC”这样的地方,两个相邻的分割标记之间没有数据。

通过围绕整个正则表达式(split /(\^.C)/)移动括号,我们可以获得一个列表,其中包含所有拆分标记以及它们之间的数据。

$VAR1 = 'CCCCCCCC';
$VAR2 = '^hC';
$VAR3 = '';
$VAR4 = '^iC';
$VAR5 = '';
$VAR6 = '^*C';
$VAR7 = '';
$VAR8 = '^"C';
$VAR9 = '^8A';

这些选项对您最有用取决于您正在尝试做什么。

答案 1 :(得分:5)

当您说 [any_character] 时,您必须表示.模式,一个点匹配任何字符而不是换行符号,如果您使用s修饰符,它将匹配任何字符。

所以,在你的情况下,你不应该逃避点:

@split_str = split /\^.C/, $letters;
                      ^

或者,使用s修饰符:

@split_str = split /\^.C/s, $letters;
                         ^

应该转义插入符以表示正则表达式中的文字插入符号。

答案 2 :(得分:0)

有一个关于计数而不是拆分的问题。 可以使用正则表达式替换和全局 s//g 进行计数和标量返回($_ 包含修改后的文本)来完成:

my $text = 'CCCCCCCC^hC^iC^*C^"C^8C^9A^!B'; #litte longer than yours
$_ = $text ;
my $countanychar = s/\^.C//g ;
print  "counting any char and C:\t $countanychar in $text\n";

$_ = $text ;
my $countnormalchar = s/\^\wC//g ; # h and i and 8  in this example avoid the * and "
print  "counting normal char and C:\t $countnormalchar in $text\n";

$_ = $text ;
my $countnumber = s/\^\dC//g ;# the 8 in this example
print  "counting number and C:\t $countnumber in $text\n";

$_ = $text ;
my $countextended = s/\^.\w//g ;# the he C and the A
print  "counting extended C and A and B:\t $countextended in $text\n";

答案 3 :(得分:-4)

尝试这样@split_str = split(/ \ ^ /,$ letters)