Python正则表达式在&符号处停止

时间:2014-11-10 18:47:50

标签: python regex

我正在更新解析谷歌搜索结果的脚本。 Google改变了返回结果的方式,我需要更新我的正则表达式。目前的问题是在看到&符之后让正则表达式停止。

当前正则表达式re_urls = re.compile('<a href="/url\?q=(.*?)"')

这会返回例如: http://www.example.com/test&amp;sa=U&amp;ei=3gdhVOfSJOr1iQKnwoBg&amp;ved=0CBQQFjAA&amp;usg=AFQjCNHPaPBdpjIJFynGKhW1As1fg9r8Aw

如何让它返回http://www.example.com/test

1 个答案:

答案 0 :(得分:1)

如果您对&符号不感兴趣,可以使用

r'<a href="/url\?q=([^&"]*)'

使用排除"&个字符的字符类,并贪婪地匹配所有其他字符。