如何处理网页抓取以更改网址

时间:2013-06-19 06:56:03

标签: artificial-intelligence web-scraping web-crawler jsoup

我很晚才开始做Web Scraping的工作。经过一些研究和分析,我可以了解它。但我坚持到某一点,即使在谷歌上搜索后我也无法找到合适的答案。我坚持的一点是,通过网络抓取,我登录到内部网页,登录用户&密码,对于我的代码中的给定URL,我能够获取数据,但是当URL更改时,我的代码无法登录,因为代码已经访问了错误的URL。现在,命中链接的代码是一种代理,它在刷新命令时命中URL。

我想知道任何好的工具或一些书可以帮助我理解在网络抓取上应用人工智能。有了这个,我可以动态处理我的代理,而无需手动重新配置它。任何帮助都会非常愉快。

1 个答案:

答案 0 :(得分:0)

如果链接经常更改,您可以阅读从旧链接发送的标头,看看是否有标题可以将您重定向到新链接

http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html#sec10.3

这些是html重定向代码

我不知道你用什么软件进行抓取,但我确信它可以处理重定向跟踪。

例如:在用PHP编写的CURL中,以下代码用于跟踪重定向

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
//FROM http://stackoverflow.com/questions/3519939/make-curl-follow-redirects

回答您的请求

  

我想知道任何好的工具或一些可以帮助我的书   了解在Web抓取中应用人工智能

PHP是理解基本网页抓取的好工具,但它并不像你想象的那么快。我所知道的最快的技术是ERLANG。但它对新人并不友好。