我有一个类似
的代码段re.sub(r"""\s*(\p{LD}+)\s+NEAR/(\d)\s+(\p{LD}+)\s*""",r""""$1 $3"~$2""",'foo NEAR/4 bar')
在python中。
预期产量为
" foo bar" ~4
但现在我正在
foo NEAR/4 bar
我正在尝试将scala代码转换为python。 scala代码是
val near_rex = """\s*(\p{LD}+)\s+NEAR/(\d)\s+(\p{LD}+)\s*""".r;
val out = near_rex.replaceAllIn("foo NEAR/4 bar", """"$1 $3"~$2""");
scala代码段正常运行http://www.simplyscala.com/
答案 0 :(得分:1)
我不知道scala,因此我不知道\p{LD}+
应匹配的内容,但使用\w
来匹配[a-zA-Z0-9_]
(foo / bar),正则表达式没问题:
>>> re.sub(r"""\s*(\w+)\s+NEAR/(\d)\s+(\w+)\s*""",r""""\1 \3"~\2""",'foo NEAR/4 bar')
'"foo bar"~4'
要返回捕获的群组,您必须使用\1
,\2
...而不是$1
。
正如Avinash Raj在评论中所建议的那样,你可以通过使用简单的引用来摆脱三元组的引用:
re.sub(r'\s*(\w+)\s+NEAR/(\d)\s+(\w+)\s*',r'"\1 \3"~\2','foo NEAR/4 bar')
此外\p{L}
不是Scala特定的(归功于Amal Murali),但用于匹配属于"letter" category的unicode角色。