我正在尝试解析整个网站
有很多子链接,我想解析它的所有子链接。
目标网页内的链接: -
http://targetsite.com/childpage/1
我遇到的问题是,如果我直接打开这些链接,例如 -
使用 Curl 或 Python urllib2 或 Python Selenium 。
然后该网站将我重定向到CAPTCHA页面以防止自动恶意程序解析该页面。
但是,如果我点击它打开该链接,然后打开它,而不会重定向到CAPTCHA页面。
打开http://targetsite.com/childpage/1
点击http://targetsite.com主页上的此链接。
然后显示该页面。
注意: - 我也尝试过只是将链接粘贴到浏览器并直接打开它而不使用点击操作,在这种情况下它也会重定向到CAPTCHA页面。