我正在使用 Raku 2020.10。
根据这个页面, https://docs.raku.org/language/regexes#Longest_alternation:_| , "|"或引用的列表是最长的匹配。
> say "youtube" ~~ / < you tube > /
「you」 # expected "tube" to win the match
> say "youtube" ~~ / you | tube /
「you」 # expected "tube" to win the match
> say "youtube" ~~ / tube | you /
「you」 # expected "tube" to win the match
现在尝试“||”而不是“|”:
> say "tubeyou" ~~ / you || tube /
「tube」 # longest match or first match?
> say "youtube" ~~ / you || tube /
「you」 # first match?
现在尝试网页示例:
> say 'food' ~~ / f | fo | foo | food /
「food」 # works as expected
> say 'foodtubes' ~~ / f | fo | foo | food | tubes /
「food」 # expected "tubes" (5 chars) to win
> say 'foodtubes' ~~ / tubes | f | fo | foo | food /
「food」
> say 'foodtubes' ~~ / dt /
「dt」
> say 'foodtubes' ~~ / dt | food /
「food」
> say 'foodtubes' ~~ / dt | food | tubes /
「food」
好像是带有“|”的匹配引擎在第一场有点长的成功比赛后退出。还是我做错了什么?
谢谢!!!
答案 0 :(得分:7)
(这个答案建立在@donaldh 在评论中已经说过的内容之上)。
这是一个非常好的问题,因为它经常会让人对正则表达式如何搜索字符串感到困惑:正则表达式从根本上一次搜索一个字符并返回第一个匹配发现。您可以修改此行为(例如,环顾考虑其他字符;多个标志使正则表达式返回多个结果)。但是,如果您从对 regex 默认情况下的行为方式的基本了解开始,很多这些问题就会变得更加清晰。
因此,让我们将其应用于示例的一个轻微变体:
> `youtube' ~~ / you | ..| tube /
「you」
以下是正则表达式引擎如何看待它(在高级/简化术语中),逐个字符:
pos:0 youtube
^
branch 1 wants 'y'. Match!
branch 2 wants . (aka, anything). Match!
branch 3 wants 't' No match :(
pos:1 youtube
^
branch 1 wants 'o'. Match!
branch 2 wants . Match!
branch 2 completed with a length of 2
pos:2 youtube
^
branch 1 wants 'u'. Match!
branch 1 completed with a length of 3
...all branches completed, and 2 matches found. Return the longest match found.
「you」
这种逻辑的结果是,与往常一样,正则表达式返回字符串中的第一个匹配项(或者,更具体地说,从字符串中最早位置开始的匹配项)。当多个匹配项在同一位置开始时,|
的行为就会起作用。发生这种情况时,|
表示我们得到最长的匹配。
相反,使用 'youtube' ~~ / you | tube /
,我们永远不会有多个匹配从同一位置开始,因此我们永远不需要依赖 |
的行为。 (我们确实在 string 中有多个匹配项,正如您在全局搜索中看到的:'youtube' ~~ m:g/ you | tube /
)
如果您想要字符串中所有匹配项中最长的(而不是第一个匹配项的最长选项),那么您可以使用以下内容:
('youtube' ~~ m:g/ you | tube /).sort(*.chars).tail
答案 1 :(得分:2)
这不是最长匹配的问题。
这是最早匹配的问题。
TypeError: remove_duplicate() missing 1 required positional argument: 'columnC'
想象一下,上面的正则表达式实际上被这个包围了:
'abcd' ~~ / bcd | . /; # 「a」
那么我们有:
/^ .*? <([ … ])> .* $/
注意第一个 /^ .*? <([ bcd | . ])> .* $/
是非贪婪的。它宁愿不捕捉任何东西。
.*?
如果必须的话,它会的
'abcd' ~~ /^ .*? <([ bcd | . ])> .* $/; # 「a」