我正在尝试使用Python制作爬虫。我正在使用beautifulsoup并请求库,并需要给定网站的URL集。但是,在某个部分,有重定向,当我打印response.text,即页面内容,我得到以下行
<script>
<!--
window.location = "redirect_URL/index.php"
-->
</script>
如何检索此网址以便抓取此网址
答案 0 :(得分:1)
您只需检查response.text
重定向发生(python):
regex= /window\.location\s*=\s*\"([^"]+)\"/
var occurance = regex.exec(responce.text)
if (occurance[1])
print occurance[1];
请参阅the demo。