Question

我在使用正则表达式匹配http链接时遇到问题。我有一个模式，我想从网站源代码中提取。源代码有200多行，包含许多HTML乱码，如</html><body... useless links useless images'

我需要的http链接属于这种模式：

<a href"http:www.google.com/....1,1">
<a href"http:www.google.com/....2,2">
<a href"http:www.google.com/....3,3">

我只想获得http链接，它们的独特模式就是结局。请帮助，我已经坚持了几个小时试验gusb，regxpr和grep。

Answer 1

正则表达式很难与通用网址（URL Matching）匹配，但是如果您总是希望匹配该确切模式，则可以尝试使用

`http:www\.google\.com/.*?(\d+),\1`

这将搜索http：www.google.com，后跟任何内容，并以逗号两边的相同两个数字结尾，这就是您所显示的模式中显示的内容。