使用正则表达式中的嵌套命名组,可以导航层次结构?

时间:2013-08-16 18:28:46

标签: .net regex

我开发了一个符合pstops页面规范的正则表达式。 (正则表达式空白并不重要。)

^(?:(?<modulo>\d+):)?
(?<pages>
  (?<pagespec>
    (?<pageno>-?\d+)
    (?<rotation>[RUL]?)?
    (?:@(?<scale>\d*(?:\.\d+)))?
    (?:\(
      (?<xoff>\d*\.?\d+)(?<xunit>in|cm|w|h)?
      ,
      (?<yoff>\d*\.?\d+)(?<yunit>in|cm|w|h)?
    \))?
  \+?)+,?
)+$

'Sample string:
'"4:1L@.7(21cm,0)+-2L@.7(21cm,14.85cm),1L(21cm,0)+-2L@.7(21cm,14.85cm)"

如您所见,有嵌套的命名子组。例如,pagespec无需指定rotation。我希望能够做到这一点的效果:

If match.Groups("pages").Captures(0).Groups("pagespecs").Captures(1).Groups("rotation").Value > ""

但当然Captures没有Groups属性。有没有办法以这种方式访问​​层次结构中的子组?

编辑:这是一个更简单的例子(这次是重要的空白区域):

(?<paragraph>(?:(?<sentence>The (?<child>boy|girl) is hungry\.|The (?<parent>mother|father) is angry\.)\s*)+)

与此字符串匹配:

The boy is hungry. The mother is angry. The girl is hungry.

产生一场比赛。在那场比赛中,

  • Groups("paragraph")有一个匹配整个字符串的捕获。
  • Groups("sentence")有三次捕获。
  • Groups("child")有两个捕获,boygirl
  • Groups("parent")有一个捕获,mother

但没有任何迹象告诉我parent的单一捕获位于sentence的第二次捕获中,除非我开始查看每个IndexLength捕获。

编辑:这是最终答案:

^(?:(?<modulo>\d+):)?
(?<pages>
  (?<pagespec>
    (?<pageno>-?\d+)
    (?<rotation>[RUL]?)
    (?:@(?<scale>\d*(?:\.\d+)))?
    (?:\(
      (?<xoff>\d*\.?\d+)(?<xunit>in|cm|w|h)?
      ,
      (?<yoff>\d*\.?\d+)(?<yunit>in|cm|w|h)?
    \))?
    (?<pageno>)(?<rotation>)(?<scale>)(?<xoff>)(?<xunit>)(?<yoff>)(?<yunit>)
  \+?)+,?
 (?<pagespec>)
)+

这会将NULL推送到每个pagespec之间的page堆栈,以便它们与page相关联;以及NULL到每个pagespec之间的每个其他命名堆栈上。哎呀,解析很难......

1 个答案:

答案 0 :(得分:2)

我不认为这是可能的。据我所知,不同的群体在如何嵌套在模式中彼此没有关系。而且,这样的层次结构甚至没有意义,因为组名可以在.NET中重用:

(?<group>
  (?<sub>.)
)+
(?<sub>.)

我想在某种程度上也可以将这个分层树表示出来,但是这会破坏堆栈的目的,.NET会为捕获而维护。也许我应该澄清一点:.NET并不是简单地列出一个组的所有捕获 - 它将它们推送到一个堆栈,例如,可以用(?<-sub>)再次弹出它们。现在,如果一个组的实例稍后从堆栈中弹出一些先前匹配的东西,你将如何对待它?我认为,如果不是不可能解决一般情况,那将会变得非常不直观。

您真正想要的是将pagespecs次捕获按照与pages的单个“实例”对应的方式进行分组。您可以通过阻止解决方案的原因执行此操作,您希望:您可以重复使用组:

^(?:(?<modulo>\d+):)?
(?<pages>
  (?<pagespecs>
     # here goes your actual pagespec pattern
  [+]?)+
  (?<pagespecs>)
  ,?
)+$

现在在每个page的末尾,您将一个空字符串推送到pagespecs堆栈。由于pagespecs的正常“实例”将始终包含至少一个字符,因此您知道任何空捕获都必须来自pagespecs的单独使用。因此,您现在可以通过空字符串元素将Captures("pagespecs")拆分,然后将它们与Captures("pages")中的元素按顺序关联。