Question

我有一个类似

的代码段

re.sub(r"""\s*(\p{LD}+)\s+NEAR/(\d)\s+(\p{LD}+)\s*""",r""""$1 $3"~$2""",'foo NEAR/4 bar')

在python中。

预期产量为
＆＃34; foo bar＆＃34; ~4

但现在我正在

foo NEAR/4 bar

我正在尝试将scala代码转换为python。 scala代码是

val near_rex = """\s*(\p{LD}+)\s+NEAR/(\d)\s+(\p{LD}+)\s*""".r;
val out = near_rex.replaceAllIn("foo NEAR/4 bar", """"$1 $3"~$2""");

Answer 1

我不知道scala，因此我不知道\p{LD}+应匹配的内容，但使用\w来匹配[a-zA-Z0-9_]（foo / bar），正则表达式没问题：

>>> re.sub(r"""\s*(\w+)\s+NEAR/(\d)\s+(\w+)\s*""",r""""\1 \3"~\2""",'foo NEAR/4 bar')
'"foo bar"~4'

要返回捕获的群组，您必须使用\1，\2 ...而不是$1。

正如Avinash Raj在评论中所建议的那样，你可以通过使用简单的引用来摆脱三元组的引用：

re.sub(r'\s*(\w+)\s+NEAR/(\d)\s+(\w+)\s*',r'"\1 \3"~\2','foo NEAR/4 bar')

此外\p{L}不是Scala特定的（归功于Amal Murali），但用于匹配属于"letter" category的unicode角色。