raku:最长的比赛不做最长的比赛,但在第一场比赛后退出

时间:2021-02-15 07:27:46

标签: regex match raku

我正在使用 Raku 2020.10。

根据这个页面, https://docs.raku.org/language/regexes#Longest_alternation:_| , "|"或引用的列表是最长的匹配。

> say "youtube" ~~ / < you tube > /
「you」                                   # expected "tube" to win the match
> say "youtube" ~~ /  you | tube  /
「you」                                   # expected "tube" to win the match
> say "youtube" ~~ / tube | you /
「you」                                   # expected "tube" to win the match

现在尝试“||”而不是“|”:

> say "tubeyou" ~~ / you || tube /
「tube」                                # longest match or first match?
> say "youtube" ~~ / you || tube /
「you」                                 # first match?

现在尝试网页示例:

> say 'food' ~~ / f | fo | foo | food /
「food」                                                 # works as expected
> say 'foodtubes' ~~ / f | fo | foo | food | tubes /
「food」                                                 # expected "tubes" (5 chars) to win
> say 'foodtubes' ~~ / tubes | f | fo | foo | food /
「food」
> say 'foodtubes' ~~ / dt /
「dt」
> say 'foodtubes' ~~ / dt | food /
「food」
> say 'foodtubes' ~~ / dt | food | tubes /
「food」

好像是带有“|”的匹配引擎在第一场有点长的成功比赛后退出。还是我做错了什么?

谢谢!!!

2 个答案:

答案 0 :(得分:7)

(这个答案建立在@donaldh 在评论中已经说过的内容之上)。

这是一个非常好的问题,因为它经常会让人对正则表达式如何搜索字符串感到困惑:正则表达式从根本上一次搜索一个字符并返回第一个匹配发现。您可以修改此行为(例如,环顾考虑其他字符;多个标志使正则表达式返回多个结果)。但是,如果您从对 regex 默认情况下的行为方式的基本了解开始,很多这些问题就会变得更加清晰。

因此,让我们将其应用于示例的一个轻微变体:

> `youtube' ~~ / you | ..| tube /
「you」

以下是正则表达式引擎如何看待它(在高级/简化术语中),逐个字符:

pos:0    youtube
         ^
branch 1 wants 'y'.                Match!
branch 2 wants . (aka, anything).  Match!
branch 3 wants 't'                 No match :(

pos:1    youtube
          ^
branch 1 wants 'o'.                Match!
branch 2 wants .                   Match!
branch 2 completed with a length of 2

pos:2    youtube
           ^
branch 1 wants 'u'.                Match!
branch 1 completed with a length of 3

...all branches completed, and 2 matches found.  Return the longest match found.

「you」

这种逻辑的结果是,与往常一样,正则表达式返回字符串中的第一个匹配项(或者,更具体地说,从字符串中最早位置开始的匹配项)。当多个匹配项在同一位置开始时,| 的行为就会起作用。发生这种情况时,| 表示我们得到最长的匹配。

相反,使用 'youtube' ~~ / you | tube /,我们永远不会有多个匹配从同一位置开始,因此我们永远不需要依赖 | 的行为。 (我们确实在 string 中有多个匹配项,正如您在全局搜索中看到的:'youtube' ~~ m:g/ you | tube /

如果您想要字符串中所有匹配项中最长的(而不是第一个匹配项的最长选项),那么您可以使用以下内容:

('youtube' ~~ m:g/ you | tube /).sort(*.chars).tail

答案 1 :(得分:2)

这不是最长匹配的问题。

这是最早匹配的问题。

TypeError: remove_duplicate() missing 1 required positional argument: 'columnC'

想象一下,上面的正则表达式实际上被这个包围了:

'abcd' ~~ / bcd | . /; # 「a」

那么我们有:

/^ .*? <([      …      ])> .* $/

注意第一个 /^ .*? <([ bcd | . ])> .* $/ 是非贪婪的。它宁愿不捕捉任何东西。

.*?

如果必须的话,它会的

'abcd' ~~ /^ .*? <([  bcd | .  ])> .* $/; # 「a」
相关问题