我正在更新解析谷歌搜索结果的脚本。 Google改变了返回结果的方式,我需要更新我的正则表达式。目前的问题是在看到&符之后让正则表达式停止。
当前正则表达式re_urls = re.compile('<a href="/url\?q=(.*?)"')
这会返回例如:
http://www.example.com/test&sa=U&ei=3gdhVOfSJOr1iQKnwoBg&ved=0CBQQFjAA&usg=AFQjCNHPaPBdpjIJFynGKhW1As1fg9r8Aw
如何让它返回http://www.example.com/test
答案 0 :(得分:1)
如果您对&符号不感兴趣,可以使用
r'<a href="/url\?q=([^&"]*)'
使用排除"
和&
个字符的字符类,并贪婪地匹配所有其他字符。