R正则表达式:http匹配

时间:2012-07-10 12:26:42

标签: regex r

我在使用正则表达式匹配http链接时遇到问题。我有一个模式,我想从网站源代码中提取。源代码有200多行,包含许多HTML乱码,如</html><body... useless links useless images'

我需要的http链接属于这种模式:

<a href"http:www.google.com/....1,1">
<a href"http:www.google.com/....2,2">
<a href"http:www.google.com/....3,3">

我只想获得http链接,它们的独特模式就是结局。请帮助,我已经坚持了几个小时试验gusb,regxpr和grep。

1 个答案:

答案 0 :(得分:6)

正则表达式很难与通用网址(URL Matching)匹配,但是如果您总是希望匹配该确切模式,则可以尝试使用

`http:www\.google\.com/.*?(\d+),\1`

这将搜索http:www.google.com,后跟任何内容,并以逗号两边的相同两个数字结尾,这就是您所显示的模式中显示的内容。